斯坦福大学突破性研究：TTT层挑战Transformers，引领AI新架构

斯坦福大学突破性研究：TTT层挑战Transformers，引领AI新架构

来源: | 作者:DE.Tech | 发布时间: 2024-07-17 | 455 次浏览 | 分享到:

斯坦福大学突破性研究：TTT层挑战Transformers，引领AI新架构

关键字：斯坦福大学 TTT层序列建模自监督学习 Transformers RNNs 深度学习人工智能

在人工智能领域，深度学习模型的架构创新一直是推动技术进步的关键。最近，斯坦福大学的研究人员提出了一种名为“测试时训练”（Learn at Test Time, TTT）层的新型序列建模层，这一创新架构在处理序列数据方面展现出了超越现有Transformers模型的潜力。

TTT层的核心优势：

线性复杂度：TTT层保持了RNNs的线性复杂度，同时让隐藏状态变得更加强大和灵活。
自监督学习：TTT层受自监督学习启发，将隐藏状态本身变成一个小型的机器学习模型，每次处理新数据时，都用自监督学习的方式更新这个模型。
无需转换：TTT层可以直接编译运行原版CUDA程序，无需任何修改转换。

研究背景：在Transformers模型被提出之前，RNNs网络结构如LSTMs因其计算简单、擅长处理序列数据而被广泛使用。然而，RNNs在处理长文本时受限于梯度消失和梯度爆炸问题，无法像Transformers那样进行缩放或有效利用长上下文。Transformers模型虽然在处理长文本方面表现出色，但其自注意力机制的计算复杂度与数据长度的平方成正比，这在处理极长文本时成为瓶颈。

TTT层的创新之处：

隐藏状态作为模型：TTT层的隐藏状态是一个模型，更新规则是自监督学习的一步。
实例化：研究者引入了两种简单的实例化：TTT-Linear和TTT-MLP，其中隐藏状态分别是线性模型和两层MLP。
端到端优化：TTT层可以集成到任何网络架构中，并且像RNN层和自注意力一样进行端到端优化。

实验结果：

在Pile数据集上进行的实验表明，TTT层在处理长文本时能够持续降低困惑度，而Mamba模型在文本超过一定长度后性能趋于平稳。
TTT-Linear在处理8K上下文时，速度比Transformers快，与Mamba相当。

技术细节：

自监督任务：TTT层的自监督任务是关键，它决定了从测试序列中学到的特征类型。
并行优化：TTT层通过小批量梯度下降实现了并行优化，提高了计算效率。
对偶形式：TTT层的对偶形式在计算时时间复杂度较低，更有效地利用硬件。

主要亮点：

TTT层：斯坦福大学提出的新型序列建模层。
超越Transformers：在处理长文本方面展现出超越现有模型的潜力。
自监督学习：TTT层通过自监督学习更新隐藏状态。
无需转换：直接编译运行原版CUDA程序。
实验验证：在Pile数据集上进行了广泛的实验验证。

TTT层的提出为深度学习模型的设计提供了新的思考维度。它不仅在理论上具有创新性，而且在实际应用中也展现出了显著的性能优势。随着人工智能技术的不断发展，TTT层有望在自然语言处理和其他序列建模任务中发挥重要作用。

注：数据公开渠道收集发布，版权出版方所有，此处不构成任何投资建议

Copyright © 深度元素（北京）科技有限公司-京ICP备2023009090号-1 玩物熵智（杭州）工作室-浙ICP备2023014592

服务协议隐私协议

深度元素实验室

售后服务

周一至周五 9：00-18：00

产品和技术中心

服务热线: 010-62128818

Email: deepelement.ai@outlook.com

开通流程

帮助中心

注册会员开通

请联系客服

QQ：3812246228