自回归模型研究雷达

2026/05/17 00:00:00·2026/05/19 10:23:00

🎯 关注方向

Autoregressive Visual Generation	用 next-token prediction 建模图像、视频或多模态序列
Visual Tokenizer for AR	适合自回归建模的视觉 token 形式、顺序、码本与压缩率
Multimodal AR Models	图像、文本、视频、音频统一序列建模，关注跨模态对齐
Masked vs Causal Modeling	MaskGIT、causal AR、hybrid decoding 的比较与迁移
Scaling and Efficiency	高分辨率视觉序列下的 token 数、上下文长度、推理成本与生成质量权衡

从每日 arXiv digest 中筛选自回归视觉建模相关论文，判断其对 1D Visual Tokenizer 与统一理解生成的启发。

因果性是 AR 生成范式的副产品，非 tokenizer 本质约束：LLaDA 的 reversal curse 实验证明双向 attention 可以学会反向推理，而 AR 的 causal mask 从结构上禁止该能力。这意味着 causal AR tokenizer 的因果约束是为适配 AR 生成而引入的，换成 diffusion 生成即可解绑。
block-causal DiT 提供了介于 fully causal 和 fully parallel 之间的中点设计：block 内并行（局部语义快速组织）+ block 间因果（全局逻辑推进），对 1D visual tokenizer 的注意力结构设计有直接参考价值。
ELBO 三项分解可诊断视觉 tokenizer 的瓶颈位置：Cola DLM 把 AR 模型里糊在一起的损失拆开为 conditional realization（decoder 能力）、information compression（压缩率）和 prior matching（prior 拟合），视觉 tokenizer 可用同一框架定位瓶颈。

LLaDA — 离散扩散语言模型（arXiv）：人大李崇轩组，8B 从头训练，双向 mask diffusion，reversal curse 实验证明双向建模的独立价值。属于离散 baseline，与连续扩散路线对照阅读。
Cola DLM — 连续潜在扩散语言模型（arXiv）：字节 Seed + 港大 + 人大 + 北大 + 北邮 + 澳国立，Text VAE + block-causal DiT + Flow Matching，ELBO 三项分解提供诊断框架。分层架构偏重但思想可迁移。
连续扩散语言模型路线综述：三篇论文（ELF · Cola DLM · LLaDA）的系统性分析，含架构决策对照表和视觉编码器启发。可与扩散模型研究雷达交叉参考。
VAR — Visual Autoregressive Modeling（arXiv）：AR 视觉生成 baseline，causal mask 引入的单向偏差问题可与 LLaDA 的双向建模对照，检验视觉 AR 模型是否同样存在 reversal curse。

诊断实验：visual encoder latent 是否语义化（与 vision-encoder / diffusion-model radar 共享最优先跟踪项）

方法：冻结 TiTok encoder，跑 ImageNet val set 的 latent，t-SNE 可视化 + CLIP score 相关性分析。Cola 式反证法（训练 latent dim = 16/64/128/256 变体，看最优 bottleneck 位置是否系统性漂移）作为更严格验证。实验结果决定 ELF 路线能否直接迁移。

参考：连续扩散LM综述 · RQ1 反证法框架