《Language Models are Unsupervised Multitask Learners》
这篇文章《Language Models are Unsupervised Multitask Learners》探讨了大型语言模型在未进行显式监督学习的情况下,通过在大规模网页数据集WebText上的训练,能够学习执行多种自然语言处理任务的能力。
引言
传统的机器学习系统在训练任务上表现出色,但对数据分布和任务规格的微小变化非常敏感。作者提出了构建更通用系统的目标,这些系统能够执行多项任务,而不需要为每项任务手动创建和标记训练数据集。
方法
核心方法是语言建模,通过训练模型预测序列中下一个符号的概率。通过在输入中加入任务条件,模型能够学习执行特定任务,如翻译、阅读理解等。使用了Transformer架构,特别是基于OpenAI GPT模型的改进版本。
Transformer架构:
自注意力机制:
层归一化(Layer Normalization):
初始化策略:
词汇表扩展:
上下文大小:
批量大小:
训练策略:
多任务学习:
零样本学习:
训练数据集
创建了一个新的网页抓取数据集WebText,包含4500万个链接的文本部分,用于训练。使用了Byte Pair Encoding (BPE)作为输入表示方法,结合了字级和词级语言建模的优点。
数据来源:
链接数量:
内容提取:
数据清洗:
数据规模:
排除维基百科:
多样性:
数据质量问题:
数据集的用途:
数据集的影响:
实验
训练了四种不同大小的模型,并在多个语言建模数据集上进行了测试。GPT-2模型在7个测试数据集中达到了最先进的结果,并且在8个测试中表现良好。
零样本任务转移
展示了GPT-2在零样本设置下执行多种任务的能力,包括阅读理解、摘要、翻译和问答。GPT-2在CoQA数据集上的表现与3个基线系统相当,尽管没有使用训练样本。
泛化与记忆
分析了训练数据和测试数据之间的重叠,并讨论了这种重叠对性能的影响。通过比较GPT-2生成的样本与训练集的重叠率,发现GPT-2比基线率更少地重复训练集中的文本。
多样性与鲁棒性
展示了GPT-2在处理同一上下文时生成的不同完成结果,证明了模型的多样性。GPT-2能够处理分布外的上下文,但这些样本的质量通常较低。
结论
证明了大型语言模型在多样化的文本语料上训练时,能够在零样本设置下跨多个领域和数据集表现良好。表明高容量模型开始学习执行任务,而无需显式监督。
原文: