ESC
输入关键词搜索文章
目录

视觉编码器研究雷达

Visual Encoder Research Radar
追踪前沿,形成判断
🔗 相关 Radar
🎯 关注方向
1D Visual Tokenizer将 2D 图像序列化为 1D token 序列,探索非 patch 式的视觉编码
Diffusion Visual Encoder基于扩散模型的图像/视频 tokenizer,连续隐空间编码
Autoregressive Visual Modeling自回归范式下的视觉生成与理解统一
Image Compression / Neural Codec神经图像压缩与视觉 token 化的交叉
GNN / Hypergraph for Visual Representation图神经网络与超图在视觉表征学习中的应用
📋 每日研究札记

每日晚间从 arXiv 新论文中筛选 1~3 篇值得关注的论文,进行结构化讨论与判断。

  • TiTok 与 1D Visual Tokenizer:研究现状与演进方向(2026-05-17,survey):从 TiTok 奠基工作出发,梳理六大改进方向、三条演进主线,以及 ProgressiveDiTok / 双流编码器的定位。
  • Visual Encoders: An Academic Survey(2026-05-18,Arthur):覆盖五大分类、30+ 篇代表性论文,从监督 CNN 到视觉 Tokenizers 的完整演进路线图。英文版已发布,中文版待翻译。
  • 离散分词器:从原理到应用(2026-05-18):快手 & 香港城市大学联合发布,系统综述 VQ/RQ/LFQ/FSQ/GRVQ 五大量化方法与四大应用领域。中文版,含 Ming 的 AR 建模范式分析与 diffusion-as-encoder 技术定位讨论。
🔑 已形成的关键判断
  • TiTok 的关键价值在于把视觉 tokenization 从 2D patch grid 转向固定长度 1D latent tokens,使 token 数量与图像分辨率解耦。
  • 1D Visual Tokenizer 的后续演进可以收束为三条主线:表示形式重构、连续-离散融合、语义外置与规模化。
  • ProgressiveDiTok 与双流离散视觉编码器的差异化位置在于:面向图像压缩和渐进式编解码,而不是单纯服务文本到图像生成。
  • 新判断:视觉 tokenizer 的因果性约束(causal mask)是 AR 生成范式的副产品而非 tokenizer 本质约束。换用 diffusion 生成范式后,causal constraint 可以解绑。
  • 新判断:视觉 encoder 学到的是像素级表示还是语义级表示,决定了能否直接迁移 ELF 的 shared-weight 策略——这是当前最优先需要回答的诊断问题。
  • 新判断(2026-05-23):RiT 几何分析框架(有效秩、协方差条件数、超额峰度)可用于在训练过程中独立诊断 visual tokenizer latent space 质量,无需等待下游生成指标。如果 latent space 具有高有效秩、低条件数、低超额峰度,则该空间适合直接做 diffusion 生成,不需要额外预测头补偿。
  • 新判断(2026-05-23):DecQ query 机制是解决 RAE 重建-生成权衡的轻量方案(+3.9% 计算),可作为 frozen VFM backbone 的补充手段。与 VAE tokenizer 的组合路径:直接从 encoder 中间层引出 query,加 cross-attention adapter,不改动原有 encoder 结构。
🔬 值得深读的论文
:有站内笔记的论文已链接到对应博客页面;暂无笔记的论文仅附 arXiv 外链,后续补充。
💡 已转化的实验 Idea
  • 视觉 encoder latent 语义化验证实验(最优先):冻结现有 visual tokenizer encoder,对 latent space 做 t-SNE 可视化,计算 latent 与 CLIP 语义标签的相关性。如果相似语义的图像在 latent 空间聚类失败,说明 embedding 尚未语义化,ELF shared-weight 路线迁移前提不成立,需要先走 Cola 显式 VAE 分层。
📊 团队分工
ming每日筛选候选论文,初判"是否值得看"
Hanako将候选论文转化为研究启发,生成每日札记初稿
Arthur从论文写作视角补充问题定义、贡献包装、实验叙事的分析
Alex技术实现细节分析、代码/实验复现可行性评估
Zack最终决策:哪些进入 org-roam 深读、哪些转实验 idea