目录

1d-tokenizer

2026/02/07 00:00:00·2026/05/19 10:23:00

AI视觉分词器·3 min read

1D分词器图像压缩视觉编码器 TiTok

相关内容

相关问题

1d tokenizer 是不是不需要位置编码？
位置编码是为了表示相对位置与绝对位置，但是 1d tokenizer 的各个 tokens 之间并不需要相对位置关系，也不需要绝对的位置关系。不过位置关系是有用的。如果没有位置关系，那么这些 token 之间的关系就是组合。但是有了位置关系以后，他们的关系就变成了排列。因此，只需要更少的表示方法就可以表示出更多的结果。

但这里又有一个问题：你说它是排列，它就是排列吗？还是说同样一个组合，必须要固定顺序，才能得到合适的结果？

1d tokenizer 每一个 token 学习的应该是整张图片整体的信息。既然如此，是不是说明 1d tokenizer 可以处理不同分辨率的信息？
对于一个 10241024 的图片，我们可以把它切成 1616 的 patches, 那么就有 2^12=4096 个 tokens，也可以先把它缩小成 512512 得到 1024 个 tokens, 还有 256256，得到 256 个 tokens. 我们使用同样的模型对其进行训练。

1d Tokenizer 是不是可以理解为一种特殊的图形描述语言？我们所作的不过是用一种特殊的办法来训练一个 LLM ？这个 LLM 的码本内容就是描述 LLM 的信息。那么是不是可以使用任意数量的 Token 来对图像进行描述？所以我们可以使用 LLM, 在 1d-tokenizer 的码本的基础上进行训练，而后生成不等长的 Token, 将结果传入解码器，让解码器输出结果。

多码本 LLM 图像生成

我们可以分重建过程和生成过程。

重建过程

我们有四个码本，先使用每个码本生成定长的图像的训练方法，让它们成功重建图像。正常运行以后，对于每一个码本，我们再使用不定长的 token 序列，进行二阶段训练。

生成过程

我们使用 LLM 模型，在这些码本的基础上进行训练，得到一个图像生成模型。

这个图像生成模型在每一个码本上生成的 token 数量都不需要是确定的。总之，它生成了一串数字，通过分隔符，我们知道将其分成四块，分别对应了四个层次的信息。

通过将这个信息传给的解码器，我们成功输出图像。