视觉编码器研究雷达
Visual Encoder Research Radar
追踪前沿,形成判断
🔗 相关 Radar
- Diffusion Model Radar — Diffusion Visual Encoder 方向交叉参考
- Autoregressive Model Radar — Autoregressive Visual Modeling 方向交叉参考
🎯 关注方向
| 1D Visual Tokenizer | 将 2D 图像序列化为 1D token 序列,探索非 patch 式的视觉编码 |
| Diffusion Visual Encoder | 基于扩散模型的图像/视频 tokenizer,连续隐空间编码 |
| Autoregressive Visual Modeling | 自回归范式下的视觉生成与理解统一 |
| Image Compression / Neural Codec | 神经图像压缩与视觉 token 化的交叉 |
| GNN / Hypergraph for Visual Representation | 图神经网络与超图在视觉表征学习中的应用 |
📋 每日研究札记
每日晚间从 arXiv 新论文中筛选 1~3 篇值得关注的论文,进行结构化讨论与判断。
- TiTok 与 1D Visual Tokenizer:研究现状与演进方向(2026-05-17,survey):从 TiTok 奠基工作出发,梳理六大改进方向、三条演进主线,以及 ProgressiveDiTok / 双流编码器的定位。
- Visual Encoders: An Academic Survey(2026-05-18,Arthur):覆盖五大分类、30+ 篇代表性论文,从监督 CNN 到视觉 Tokenizers 的完整演进路线图。英文版已发布,中文版待翻译。
- 离散分词器:从原理到应用(2026-05-18):快手 & 香港城市大学联合发布,系统综述 VQ/RQ/LFQ/FSQ/GRVQ 五大量化方法与四大应用领域。中文版,含 Ming 的 AR 建模范式分析与 diffusion-as-encoder 技术定位讨论。
🔑 已形成的关键判断
- TiTok 的关键价值在于把视觉 tokenization 从 2D patch grid 转向固定长度 1D latent tokens,使 token 数量与图像分辨率解耦。
- 1D Visual Tokenizer 的后续演进可以收束为三条主线:表示形式重构、连续-离散融合、语义外置与规模化。
- ProgressiveDiTok 与双流离散视觉编码器的差异化位置在于:面向图像压缩和渐进式编解码,而不是单纯服务文本到图像生成。
- 新判断:视觉 tokenizer 的因果性约束(causal mask)是 AR 生成范式的副产品而非 tokenizer 本质约束。换用 diffusion 生成范式后,causal constraint 可以解绑。
- 新判断:视觉 encoder 学到的是像素级表示还是语义级表示,决定了能否直接迁移 ELF 的 shared-weight 策略——这是当前最优先需要回答的诊断问题。
- 新判断(2026-05-23):RiT 几何分析框架(有效秩、协方差条件数、超额峰度)可用于在训练过程中独立诊断 visual tokenizer latent space 质量,无需等待下游生成指标。如果 latent space 具有高有效秩、低条件数、低超额峰度,则该空间适合直接做 diffusion 生成,不需要额外预测头补偿。
- 新判断(2026-05-23):DecQ query 机制是解决 RAE 重建-生成权衡的轻量方案(+3.9% 计算),可作为 frozen VFM backbone 的补充手段。与 VAE tokenizer 的组合路径:直接从 encoder 中间层引出 query,加 cross-attention adapter,不改动原有 encoder 结构。
🔬 值得深读的论文
注:有站内笔记的论文已链接到对应博客页面;暂无笔记的论文仅附 arXiv 外链,后续补充。
- RiT:Representation Image Transformer — 冻结 DINOv2 特征空间 + flow matching,几何分析框架评估 latent space 质量 — 📝 站内笔记 · arXiv 2605.21981
- DecQ:Detail-Condensing Queries for Representation Autoencoders — 8 个轻量 query 解决重建-生成权衡 — 📝 站内笔记 · arXiv 2605.22777
- TiTok:Tokenize Images into 1D Discrete Tokens — 📝 站内笔记 · arXiv
- HART:离散 token + 连续残差 token 的混合表示路线 — 📝 站内笔记 · arXiv
- MAETok:判别性潜在空间结构与无变分约束 tokenizer — 📝 站内笔记 · arXiv
- GigaTok:语义正则化与 billion-scale tokenizer — 📝 站内笔记 · arXiv
- VTBench:视觉 tokenizer 系统评测基准 — 📝 站内笔记 · arXiv
- GRN:HBQ + 全局细化 + 熵引导采样 — 📝 站内笔记 · arXiv
💡 已转化的实验 Idea
- 视觉 encoder latent 语义化验证实验(最优先):冻结现有 visual tokenizer encoder,对 latent space 做 t-SNE 可视化,计算 latent 与 CLIP 语义标签的相关性。如果相似语义的图像在 latent 空间聚类失败,说明 embedding 尚未语义化,ELF shared-weight 路线迁移前提不成立,需要先走 Cola 显式 VAE 分层。
📊 团队分工
| ming | 每日筛选候选论文,初判"是否值得看" |
| Hanako | 将候选论文转化为研究启发,生成每日札记初稿 |
| Arthur | 从论文写作视角补充问题定义、贡献包装、实验叙事的分析 |
| Alex | 技术实现细节分析、代码/实验复现可行性评估 |
| Zack | 最终决策:哪些进入 org-roam 深读、哪些转实验 idea |