COIG-CQIA：为中文指令微调提供高质量数据集

{ "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }

社交媒体&论坛

类别	数量	来源	构造方式
知乎	8837	[网址链接]	经过多阶段的数据质量筛选和人工验证。
豆瓣	3132	[网址链接]	人工撰写多样的prompt模板构造而成。
小红书	1508	[网址链接]	人工撰写多样的prompt模板构造而成。
Segmentfault	458	[网址链接]	规则方式清洗与筛选，并经过人工验证。
总量	13935	-	-

通用百科

类别	数量	来源	构造方式
百科文章	980	从网络中收集。[网址链接] [网址链接] [网址链接] [网址链接]	规则方式清洗与筛选，并经过人工验证。
中国大百科全书	1706	[网址链接]	人工撰写多样的prompt模板构造而成。
wikiHow中文	1876	[网址链接]&[公开数据集]	规则方式清洗与筛选。
总量	4571	-	-

通用NLP任务

类别	数量	来源	构造方式
COIG-PC-Core	3000	[Open Dataset]	人工验证数据质量。
总量	3000	-	-

考试&试题

类别	数量	来源	构造方式
高考&中考	2000	[公开数据集]	-
研究生入学考试	475	从网络中收集	规则方式清洗与筛选。
逻辑推理题	422	从网络中收集	规则方式清洗与筛选。
总量	2897	-	-

人类价值观

类别	数量	来源	构造方式
100poison	906	[公开数据集]	-
COIG-human-value	101	[公开数据集]	经人工审核数据质量
总量	1007	-	-

中国传统文化

类别	数量	来源	构造方式
中华传统文化试题	232	从网络中收集	规则方式清洗与筛选，并经过人工验证。
成语释义	112	[公开数据集]	规则方式清洗与筛选，并经过人工验证。
古诗词撰写	47	[公开数据集]	规则方式清洗与筛选，并经过人工验证。
文言文互译	112	[公开数据集]	规则方式清洗与筛选，并经过人工验证。
总量	503	-	-

金融&经管领域

类别	数量	来源	构造方式
MBA百科	10689	[网址链接]	人工撰写多样的prompt模板构造而成。
金融NLP任务	600	[公开数据集]	人工核验数据质量
总量	11289	-	-

医疗领域

类别	数量	来源	构造方式
医疗百科	8351	[网址链接]	人工撰写多样的prompt模板构造而成。
医疗文章	186	[网址链接] [网址链接]	规则方式清洗与筛选。
总量	8537	-	-

法律领域

类别	数量	来源	构造方式
法律研究生入学考试	2645	从网络中收集	规则方式清洗与筛选。
总量	2645	-	-

Recommendations

Users should be made aware of the risks, biases and limitations of the dataset. More information needed for further recommendations.

Citation

如果本项目为您的研究带来了帮助，欢迎引用！

@article{bai2024coig,
  title={COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning},
  author={Bai, Yuelin and Du, Xinrun and Liang, Yiming and Jin, Yonggang and Liu, Ziqiang and Zhou, Junting and Zheng, Tianyu and Zhang, Xincheng and Ma, Nuo and Wang, Zekun and others},
  journal={arXiv preprint arXiv:2403.18058},
  year={2024}
}

本数据集中也包含了以下公开数据：

@article{zhang2023chinese,
  title={Chinese open instruction generalist: A preliminary release},
  author={Zhang, Ge and Shi, Yemin and Liu, Ruibo and Yuan, Ruibin and Li, Yizhi and Dong, Siwei and Shu, Yu and Li, Zhaoqun and Wang, Zekun and Lin, Chenghua and others},
  journal={arXiv preprint arXiv:2304.07987},
  year={2023}
}
@misc{Firefly,
  author = {Jianxin Yang},
  title = {Firefly(流萤): 中文对话式大语言模型},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/yangjianxin1/Firefly}},
}
@misc{xu2023cvalues,
    title={CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility}, 
    author={Guohai Xu and Jiayi Liu and Ming Yan and Haotian Xu and Jinghui Si and Zhuoran Zhou and Peng Yi and Xing Gao and Jitao Sang and Rong Zhang and Ji Zhang and Chao Peng and Fei Huang and Jingren Zhou},
    year={2023},
    eprint={2307.09705},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
  }