ESC
输入关键词搜索文章
目录

自回归模型研究雷达

Autoregressive Model Research Radar
视觉 token 与 next-token prediction 的交汇

🎯 关注方向

Autoregressive Visual Generation用 next-token prediction 建模图像、视频或多模态序列
Visual Tokenizer for AR适合自回归建模的视觉 token 形式、顺序、码本与压缩率
Multimodal AR Models图像、文本、视频、音频统一序列建模,关注跨模态对齐
Masked vs Causal ModelingMaskGIT、causal AR、hybrid decoding 的比较与迁移
Scaling and Efficiency高分辨率视觉序列下的 token 数、上下文长度、推理成本与生成质量权衡

📋 每日研究札记

从每日 arXiv digest 中筛选自回归视觉建模相关论文,判断其对 1D Visual Tokenizer 与统一理解生成的启发。

🔑 已形成的关键判断

  • 因果性是 AR 生成范式的副产品,非 tokenizer 本质约束:LLaDA 的 reversal curse 实验证明双向 attention 可以学会反向推理,而 AR 的 causal mask 从结构上禁止该能力。这意味着 causal AR tokenizer 的因果约束是为适配 AR 生成而引入的,换成 diffusion 生成即可解绑。
  • block-causal DiT 提供了介于 fully causal 和 fully parallel 之间的中点设计:block 内并行(局部语义快速组织)+ block 间因果(全局逻辑推进),对 1D visual tokenizer 的注意力结构设计有直接参考价值。
  • ELBO 三项分解可诊断视觉 tokenizer 的瓶颈位置:Cola DLM 把 AR 模型里糊在一起的损失拆开为 conditional realization(decoder 能力)、information compression(压缩率)和 prior matching(prior 拟合),视觉 tokenizer 可用同一框架定位瓶颈。

🔬 值得深读的论文

💡 已转化的实验 Idea

  • 诊断实验:visual encoder latent 是否语义化(与 vision-encoder / diffusion-model radar 共享最优先跟踪项)

    方法:冻结 TiTok encoder,跑 ImageNet val set 的 latent,t-SNE 可视化 + CLIP score 相关性分析。Cola 式反证法(训练 latent dim = 16/64/128/256 变体,看最优 bottleneck 位置是否系统性漂移)作为更严格验证。实验结果决定 ELF 路线能否直接迁移。

    参考:连续扩散LM综述 · RQ1 反证法框架