COIG-CQIA:为中文指令微调提供高质量数据集
来源: | 作者:DE.Tech | 发布时间: 2024-05-12 | 390 次浏览 | 分享到:

COIG-CQIA:为中文指令微调提供高质量数据集


    

    在自然语言处理(NLP)领域,高质量的数据集对于训练和优化模型至关重要。COIG-CQIA(Chinese Open Instruction Generalist - Quality is All You Need)是一个开源的中文指令微调数据集,旨在提供高质量且符合人类交互行为的指令微调数据。

关键技术元素:

  • 数据集规模:包含来自不同来源和领域的大量数据。

  • 数据集结构:每个数据实例包含指令、输入、输出以及任务类型、领域等元数据。

  • 数据来源:包括社交媒体、论坛、百科文章、NLP任务、考试试题、人类价值观、中国传统文化、金融经管领域、医疗领域和法律领域。

数据集描述:

  • 数据集摘要:COIG-CQIA数据集是为了训练模型以响应指令而设计的,它使用中文互联网上的问答和文章作为原始数据,经过深度清洗、重构及人工审核构建而成。

  • 支持的任务:指令微调,训练模型具备理解并响应人类指令的能力。

  • 数据格式:提供了一个JSON格式的示例,展示了数据集中每个实例的结构。

  • {
        "instruction": "示例问题或者指令。",
        "input": "示例问题或指令的补充。",
        "output": "对输入的回复。",
        "task_type": {
            "major": ["问答"],
            "minor": ["百科问答"]
        },
        "domain": ["百科", "医疗"],
        "answer_from": "human",
        "human_verified": true,
        "copyright": "作者及版权信息。",
    }
  • instruction: 用于输入的指令或者问题。

  • input: 问题或指令的补充内容。

  • output: 输入对应的回答。

  • task_type: 表示该数据所属的主要任务类型和细分任务类型。

  • domain: 该数据所属领域。

  • answer_from: 回答是人类撰写的还是大模型撰写的,本数据集中绝大部分是由人类撰写的回答,少部分由大模型生成(经过了人工验证)。

  • human_verified: 该数据是否有人类核验过。

  • copyright: 包括该数据的版权信息,包括作者等。

数据集创建:

  • 策划原理:数据集的构建受到_LIMA: Less Is More for Alignment_等研究的启发,注重数据的来源、质量和多样性。

  • 源数据:数据来源于中文互联网,包括社交媒体、论坛、百科等。

使用数据的考虑:

  • 社会影响:数据集的使用可能会对中文NLP社区的研究和应用产生积极影响。

  • 偏见讨论:数据集构建过程中进行了人工审核,以确保数据的质量和多样性。

附加信息:

  • 数据集策展人:来自零一万物、中科院深圳先进技术研究院,和M-A-P等机构的研究者们。

  • 许可信息:更多信息待补充。

  • 引用信息:提供了数据集的引用格式,以支持学术诚信和研究追踪。

数据集地址:

对于想要获取COIG-CQIA数据集的研究人员和开发者,可以访问以下链接:

社交媒体&论坛
类别数量来源构造方式
知乎8837[网址链接]经过多阶段的数据质量筛选和人工验证。
豆瓣3132[网址链接]人工撰写多样的prompt模板构造而成。
小红书1508[网址链接]人工撰写多样的prompt模板构造而成。
Segmentfault458[网址链接]规则方式清洗与筛选,并经过人工验证。
总量13935--
通用百科
类别数量来源构造方式
百科文章980从网络中收集。[网址链接] [网址链接] [网址链接] [网址链接]规则方式清洗与筛选,并经过人工验证。
中国大百科全书1706[网址链接]人工撰写多样的prompt模板构造而成。
wikiHow中文1876[网址链接]&[公开数据集]规则方式清洗与筛选。
总量4571--
通用NLP任务
类别数量来源构造方式
COIG-PC-Core3000[Open Dataset]人工验证数据质量。
总量3000--
考试&试题
类别数量来源构造方式
高考&中考2000[公开数据集]-
研究生入学考试475从网络中收集规则方式清洗与筛选。
逻辑推理题422从网络中收集规则方式清洗与筛选。
总量2897--
人类价值观
类别数量来源构造方式
100poison906[公开数据集]-
COIG-human-value101[公开数据集]经人工审核数据质量
总量1007--
中国传统文化
类别数量来源构造方式
中华传统文化试题232从网络中收集规则方式清洗与筛选,并经过人工验证。
成语释义112[公开数据集]规则方式清洗与筛选,并经过人工验证。
古诗词撰写47[公开数据集]规则方式清洗与筛选,并经过人工验证。
文言文互译112[公开数据集]规则方式清洗与筛选,并经过人工验证。
总量503--
金融&经管领域
类别数量来源构造方式
MBA百科10689[网址链接]人工撰写多样的prompt模板构造而成。
金融NLP任务600[公开数据集]人工核验数据质量
总量11289--
医疗领域
类别数量来源构造方式
医疗百科8351[网址链接]人工撰写多样的prompt模板构造而成。
医疗文章186[网址链接] [网址链接]规则方式清洗与筛选。
总量8537--
法律领域
类别数量来源构造方式
法律研究生入学考试2645从网络中收集规则方式清洗与筛选。
总量2645--

Recommendations

Users should be made aware of the risks, biases and limitations of the dataset. More information needed for further recommendations.

Citation

如果本项目为您的研究带来了帮助,欢迎引用!

@article{bai2024coig,
  title={COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning},
  author={Bai, Yuelin and Du, Xinrun and Liang, Yiming and Jin, Yonggang and Liu, Ziqiang and Zhou, Junting and Zheng, Tianyu and Zhang, Xincheng and Ma, Nuo and Wang, Zekun and others},
  journal={arXiv preprint arXiv:2403.18058},
  year={2024}
}

本数据集中也包含了以下公开数据:

@article{zhang2023chinese,
  title={Chinese open instruction generalist: A preliminary release},
  author={Zhang, Ge and Shi, Yemin and Liu, Ruibo and Yuan, Ruibin and Li, Yizhi and Dong, Siwei and Shu, Yu and Li, Zhaoqun and Wang, Zekun and Lin, Chenghua and others},
  journal={arXiv preprint arXiv:2304.07987},
  year={2023}
}
@misc{Firefly,
  author = {Jianxin Yang},
  title = {Firefly(流萤): 中文对话式大语言模型},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/yangjianxin1/Firefly}},
}
@misc{xu2023cvalues,
    title={CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility}, 
    author={Guohai Xu and Jiayi Liu and Ming Yan and Haotian Xu and Jinghui Si and Zhuoran Zhou and Peng Yi and Xing Gao and Jitao Sang and Rong Zhang and Ji Zhang and Chao Peng and Fei Huang and Jingren Zhou},
    year={2023},
    eprint={2307.09705},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
  }

通过上述内容,我们可以看到COIG-CQIA数据集的主要技术元素包括其专注于中文指令微调、多领域数据覆盖以及对人类交互行为的模拟。这些元素共同构成了数据集的核心特性,使其成为中文NLP任务研究和开发的重要资源。


返回
深度元素科技,您的信赖之选