GPT基础论文2:《Language Models are Unsupervised Multitask Learners》
来源: | 作者:DE.Tech | 发布时间: 2024-12-05 | 163 次浏览 | 分享到:

《Language Models are Unsupervised Multitask Learners》


    这篇文章《Language Models are Unsupervised Multitask Learners》探讨了大型语言模型在未进行显式监督学习的情况下,通过在大规模网页数据集WebText上的训练,能够学习执行多种自然语言处理任务的能力。


引言


    传统的机器学习系统在训练任务上表现出色,但对数据分布和任务规格的微小变化非常敏感。作者提出了构建更通用系统的目标,这些系统能够执行多项任务,而不需要为每项任务手动创建和标记训练数据集。


方法


    核心方法是语言建模,通过训练模型预测序列中下一个符号的概率。通过在输入中加入任务条件,模型能够学习执行特定任务,如翻译、阅读理解等。使用了Transformer架构,特别是基于OpenAI GPT模型的改进版本。

  1. Transformer架构

    • 模型基于Transformer架构,这是一种基于自注意力机制的模型,能够处理序列数据,并且能够捕捉长距离依赖关系。

    • Transformer通过堆叠多个编码器和解码器层来构建,每层都包含自注意力和前馈神经网络(feed-forward neural network)。

  2. 自注意力机制

    • 自注意力机制允许模型在序列中的每个位置都考虑到其他所有位置,这使得模型能够有效地处理不同位置之间的依赖关系。

    • 这种机制特别适用于语言建模,因为它可以捕捉到文本中的长距离依赖和复杂的结构关系。

  3. 层归一化(Layer Normalization)

    • 为了稳定训练过程,文章中提到了对层归一化的调整,将其放置在每个子块的输入端,类似于预激活残差网络(pre-activation residual network)。

    • 层归一化有助于减少内部协变量偏移(internal covariate shift),并加速收敛。

  4. 初始化策略

    • 文章提到了一种修改的初始化方法,该方法考虑了残差路径上的累积效应,通过按残层数的平方根缩放残差层的权重来实现。

    • 这种初始化策略有助于在深度网络中保持稳定的训练动态。

  5. 词汇表扩展

    • 模型的词汇表从原始GPT模型扩展到了50,257个词汇,这允许模型捕捉更丰富的语言特征。

  6. 上下文大小

    • 模型的上下文大小从512个token增加到了1024个token,这使得模型能够处理更长的序列,捕捉更长远的依赖关系。

  7. 批量大小

    • 使用了更大的批量大小(512)进行训练,这有助于提高模型的稳定性和性能。

  8. 训练策略

    • 模型的训练涉及到手动调整学习率,以在WebText的一个5%的保留样本上获得最佳的困惑度(perplexity)。

    • 所有模型都在WebText上进行训练,并且都存在一定程度的欠拟合,这意味着模型还有改进的空间。

  9. 多任务学习

    • 通过在训练数据中包含多种任务的示例,模型能够学习执行多种任务,而不需要针对每个任务进行特定的训练或架构调整。

  10. 零样本学习

    • 模型在没有针对特定任务进行微调的情况下,能够在多种NLP任务上展示出一定的性能,这表明了模型的泛化能力。


训练数据集


    创建了一个新的网页抓取数据集WebText,包含4500万个链接的文本部分,用于训练。使用了Byte Pair Encoding (BPE)作为输入表示方法,结合了字级和词级语言建模的优点。

  1. 数据来源

    • WebText数据集的来源是Reddit上的链接。研究者们选择了Reddit上至少获得3个karma(相当于“赞”)的外部链接,这些链接被认为经过了一定程度的人工筛选,因此可能包含更高质量的内容。

  2. 链接数量

    • 数据集包含了4500万个这样的链接,这些链接被用来抓取网页内容。

  3. 内容提取

    • 为了从HTML响应中提取文本,研究者们使用了Dragnet和Newspaper两种内容提取器。

  4. 数据清洗

    • 提取的文本经过去重和基于启发式规则的清洗,以提高数据质量。

  5. 数据规模

    • 清洗后的数据集包含了800多万个文档,总计约40GB的文本。

  6. 排除维基百科

    • 为了减少与其他数据集的重叠,并避免测试时的数据泄露,研究者们从WebText中移除了所有维基百科的文档。

  7. 多样性

    • WebText数据集强调了文档的多样性,因为它包含了从Reddit链接中抓取的网页,这些网页覆盖了广泛的主题和领域。

  8. 数据质量问题

    • 尽管WebText强调了文档质量,但研究者们也注意到了从互联网上抓取的数据存在质量问题,如内容的可读性和完整性。

  9. 数据集的用途

    • WebText被用来训练GPT-2模型,这是一个具有15亿参数的Transformer模型,旨在通过大规模的文本数据学习语言的复杂模式。

  10. 数据集的影响

    • 文章中提到,WebText数据集的多样性和规模对于训练能够执行多任务的语言模型至关重要。


实验


    训练了四种不同大小的模型,并在多个语言建模数据集上进行了测试。GPT-2模型在7个测试数据集中达到了最先进的结果,并且在8个测试中表现良好。



零样本任务转移


    展示了GPT-2在零样本设置下执行多种任务的能力,包括阅读理解、摘要、翻译和问答。GPT-2在CoQA数据集上的表现与3个基线系统相当,尽管没有使用训练样本。


泛化与记忆


    分析了训练数据和测试数据之间的重叠,并讨论了这种重叠对性能的影响。通过比较GPT-2生成的样本与训练集的重叠率,发现GPT-2比基线率更少地重复训练集中的文本。


多样性与鲁棒性


    展示了GPT-2在处理同一上下文时生成的不同完成结果,证明了模型的多样性。GPT-2能够处理分布外的上下文,但这些样本的质量通常较低。


结论


    证明了大型语言模型在多样化的文本语料上训练时,能够在零样本设置下跨多个领域和数据集表现良好。表明高容量模型开始学习执行任务,而无需显式监督。


原文:



注:数据公开渠道收集发布,版权出版方所有,此处不构成任何投资建议
返回