ESC
输入关键词搜索文章
目录

1d-tokenizer

相关内容

相关问题

  1. 1d tokenizer 是不是不需要位置编码?

    位置编码是为了表示相对位置与绝对位置,但是 1d tokenizer 的各个 tokens 之间并不需要相对位置关系,也不需要绝对的位置关系。不过位置关系是有用的。如果没有位置关系,那么这些 token 之间的关系就是组合。但是有了位置关系以后,他们的关系就变成了排列。因此,只需要更少的表示方法就可以表示出更多的结果。

    但这里又有一个问题:你说它是排列,它就是排列吗?还是说同样一个组合,必须要固定顺序,才能得到合适的结果?

  2. 1d tokenizer 每一个 token 学习的应该是整张图片整体的信息。既然如此,是不是说明 1d tokenizer 可以处理不同分辨率的信息?

    对于一个 10241024 的图片,我们可以把它切成 1616 的 patches, 那么就有 2^12=4096 个 tokens,也可以先把它缩小成 512512 得到 1024 个 tokens, 还有 256256,得到 256 个 tokens. 我们使用同样的模型对其进行训练。

  3. 1d Tokenizer 是不是可以理解为一种特殊的图形描述语言?我们所作的不过是用一种特殊的办法来训练一个 LLM ?这个 LLM 的码本内容就是描述 LLM 的信息。那么是不是可以使用任意数量的 Token 来对图像进行描述?所以我们可以使用 LLM, 在 1d-tokenizer 的码本的基础上进行训练,而后生成不等长的 Token, 将结果传入解码器,让解码器输出结果。

多码本 LLM 图像生成

我们可以分重建过程和生成过程。

重建过程

我们有四个码本,先使用每个码本生成定长的图像的训练方法,让它们成功重建图像。正常运行以后,对于每一个码本,我们再使用不定长的 token 序列,进行二阶段训练。

生成过程

我们使用 LLM 模型,在这些码本的基础上进行训练,得到一个图像生成模型。

这个图像生成模型在每一个码本上生成的 token 数量都不需要是确定的。总之,它生成了一串数字,通过分隔符,我们知道将其分成四块,分别对应了四个层次的信息。

通过将这个信息传给的解码器,我们成功输出图像。