自回归模型研究雷达
Autoregressive Model Research Radar
视觉 token 与 next-token prediction 的交汇
🎯 关注方向
| Autoregressive Visual Generation | 用 next-token prediction 建模图像、视频或多模态序列 |
| Visual Tokenizer for AR | 适合自回归建模的视觉 token 形式、顺序、码本与压缩率 |
| Multimodal AR Models | 图像、文本、视频、音频统一序列建模,关注跨模态对齐 |
| Masked vs Causal Modeling | MaskGIT、causal AR、hybrid decoding 的比较与迁移 |
| Scaling and Efficiency | 高分辨率视觉序列下的 token 数、上下文长度、推理成本与生成质量权衡 |
📋 每日研究札记
从每日 arXiv digest 中筛选自回归视觉建模相关论文,判断其对 1D Visual Tokenizer 与统一理解生成的启发。
🔑 已形成的关键判断
- 因果性是 AR 生成范式的副产品,非 tokenizer 本质约束:LLaDA 的 reversal curse 实验证明双向 attention 可以学会反向推理,而 AR 的 causal mask 从结构上禁止该能力。这意味着 causal AR tokenizer 的因果约束是为适配 AR 生成而引入的,换成 diffusion 生成即可解绑。
- block-causal DiT 提供了介于 fully causal 和 fully parallel 之间的中点设计:block 内并行(局部语义快速组织)+ block 间因果(全局逻辑推进),对 1D visual tokenizer 的注意力结构设计有直接参考价值。
- ELBO 三项分解可诊断视觉 tokenizer 的瓶颈位置:Cola DLM 把 AR 模型里糊在一起的损失拆开为 conditional realization(decoder 能力)、information compression(压缩率)和 prior matching(prior 拟合),视觉 tokenizer 可用同一框架定位瓶颈。
🔬 值得深读的论文
- LLaDA — 离散扩散语言模型(arXiv):人大李崇轩组,8B 从头训练,双向 mask diffusion,reversal curse 实验证明双向建模的独立价值。属于离散 baseline,与连续扩散路线对照阅读。
- Cola DLM — 连续潜在扩散语言模型(arXiv):字节 Seed + 港大 + 人大 + 北大 + 北邮 + 澳国立,Text VAE + block-causal DiT + Flow Matching,ELBO 三项分解提供诊断框架。分层架构偏重但思想可迁移。
- 连续扩散语言模型路线综述:三篇论文(ELF · Cola DLM · LLaDA)的系统性分析,含架构决策对照表和视觉编码器启发。可与 扩散模型研究雷达 交叉参考。
- VAR — Visual Autoregressive Modeling(arXiv):AR 视觉生成 baseline,causal mask 引入的单向偏差问题可与 LLaDA 的双向建模对照,检验视觉 AR 模型是否同样存在 reversal curse。
💡 已转化的实验 Idea
- 诊断实验:visual encoder latent 是否语义化(与 vision-encoder / diffusion-model radar 共享最优先跟踪项)
方法:冻结 TiTok encoder,跑 ImageNet val set 的 latent,t-SNE 可视化 + CLIP score 相关性分析。Cola 式反证法(训练 latent dim = 16/64/128/256 变体,看最优 bottleneck 位置是否系统性漂移)作为更严格验证。实验结果决定 ELF 路线能否直接迁移。