斯坦福大学突破性研究:TTT层挑战Transformers,引领AI新架构
来源: | 作者:DE.Tech | 发布时间: 2024-07-17 | 281 次浏览 | 分享到:

斯坦福大学突破性研究:TTT层挑战Transformers,引领AI新架构



关键字:斯坦福大学 TTT层 序列建模 自监督学习 Transformers RNNs 深度学习 人工智能

    在人工智能领域,深度学习模型的架构创新一直是推动技术进步的关键。最近,斯坦福大学的研究人员提出了一种名为“测试时训练”(Learn at Test Time, TTT)层的新型序列建模层,这一创新架构在处理序列数据方面展现出了超越现有Transformers模型的潜力。

TTT层的核心优势

  • 线性复杂度:TTT层保持了RNNs的线性复杂度,同时让隐藏状态变得更加强大和灵活。

  • 自监督学习:TTT层受自监督学习启发,将隐藏状态本身变成一个小型的机器学习模型,每次处理新数据时,都用自监督学习的方式更新这个模型。

  • 无需转换:TTT层可以直接编译运行原版CUDA程序,无需任何修改转换。

研究背景: 在Transformers模型被提出之前,RNNs网络结构如LSTMs因其计算简单、擅长处理序列数据而被广泛使用。然而,RNNs在处理长文本时受限于梯度消失和梯度爆炸问题,无法像Transformers那样进行缩放或有效利用长上下文。Transformers模型虽然在处理长文本方面表现出色,但其自注意力机制的计算复杂度与数据长度的平方成正比,这在处理极长文本时成为瓶颈。

TTT层的创新之处

  • 隐藏状态作为模型:TTT层的隐藏状态是一个模型,更新规则是自监督学习的一步。

  • 实例化:研究者引入了两种简单的实例化:TTT-Linear和TTT-MLP,其中隐藏状态分别是线性模型和两层MLP。

  • 端到端优化:TTT层可以集成到任何网络架构中,并且像RNN层和自注意力一样进行端到端优化。

实验结果

  • 在Pile数据集上进行的实验表明,TTT层在处理长文本时能够持续降低困惑度,而Mamba模型在文本超过一定长度后性能趋于平稳。

  • TTT-Linear在处理8K上下文时,速度比Transformers快,与Mamba相当。

技术细节

  • 自监督任务:TTT层的自监督任务是关键,它决定了从测试序列中学到的特征类型。

  • 并行优化:TTT层通过小批量梯度下降实现了并行优化,提高了计算效率。

  • 对偶形式:TTT层的对偶形式在计算时时间复杂度较低,更有效地利用硬件。

主要亮点:

  1. TTT层:斯坦福大学提出的新型序列建模层。

  2. 超越Transformers:在处理长文本方面展现出超越现有模型的潜力。

  3. 自监督学习:TTT层通过自监督学习更新隐藏状态。

  4. 无需转换:直接编译运行原版CUDA程序。

  5. 实验验证:在Pile数据集上进行了广泛的实验验证。

    TTT层的提出为深度学习模型的设计提供了新的思考维度。它不仅在理论上具有创新性,而且在实际应用中也展现出了显著的性能优势。随着人工智能技术的不断发展,TTT层有望在自然语言处理和其他序列建模任务中发挥重要作用。


注:数据公开渠道收集发布,版权出版方所有,此处不构成任何投资建议
返回