社交媒体&论坛
类别 | 数量 | 来源 | 构造方式 |
---|
知乎 | 8837 | [网址链接] | 经过多阶段的数据质量筛选和人工验证。 |
豆瓣 | 3132 | [网址链接] | 人工撰写多样的prompt模板构造而成。 |
小红书 | 1508 | [网址链接] | 人工撰写多样的prompt模板构造而成。 |
Segmentfault | 458 | [网址链接] | 规则方式清洗与筛选,并经过人工验证。 |
总量 | 13935 | - | - |
通用百科
通用NLP任务
考试&试题
类别 | 数量 | 来源 | 构造方式 |
---|
高考&中考 | 2000 | [公开数据集] | - |
研究生入学考试 | 475 | 从网络中收集 | 规则方式清洗与筛选。 |
逻辑推理题 | 422 | 从网络中收集 | 规则方式清洗与筛选。 |
总量 | 2897 | - | - |
人类价值观
类别 | 数量 | 来源 | 构造方式 |
---|
100poison | 906 | [公开数据集] | - |
COIG-human-value | 101 | [公开数据集] | 经人工审核数据质量 |
总量 | 1007 | - | - |
中国传统文化
类别 | 数量 | 来源 | 构造方式 |
---|
中华传统文化试题 | 232 | 从网络中收集 | 规则方式清洗与筛选,并经过人工验证。 |
成语释义 | 112 | [公开数据集] | 规则方式清洗与筛选,并经过人工验证。 |
古诗词撰写 | 47 | [公开数据集] | 规则方式清洗与筛选,并经过人工验证。 |
文言文互译 | 112 | [公开数据集] | 规则方式清洗与筛选,并经过人工验证。 |
总量 | 503 | - | - |
金融&经管领域
类别 | 数量 | 来源 | 构造方式 |
---|
MBA百科 | 10689 | [网址链接] | 人工撰写多样的prompt模板构造而成。 |
金融NLP任务 | 600 | [公开数据集] | 人工核验数据质量 |
总量 | 11289 | - | - |
医疗领域
法律领域
类别 | 数量 | 来源 | 构造方式 |
---|
法律研究生入学考试 | 2645 | 从网络中收集 | 规则方式清洗与筛选。 |
总量 | 2645 | - | - |
Recommendations
Users should be made aware of the risks, biases and limitations of the dataset. More information needed for further recommendations.
Citation
如果本项目为您的研究带来了帮助,欢迎引用!
@article{bai2024coig,
title={COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning},
author={Bai, Yuelin and Du, Xinrun and Liang, Yiming and Jin, Yonggang and Liu, Ziqiang and Zhou, Junting and Zheng, Tianyu and Zhang, Xincheng and Ma, Nuo and Wang, Zekun and others},
journal={arXiv preprint arXiv:2403.18058},
year={2024}
}
本数据集中也包含了以下公开数据:
@article{zhang2023chinese,
title={Chinese open instruction generalist: A preliminary release},
author={Zhang, Ge and Shi, Yemin and Liu, Ruibo and Yuan, Ruibin and Li, Yizhi and Dong, Siwei and Shu, Yu and Li, Zhaoqun and Wang, Zekun and Lin, Chenghua and others},
journal={arXiv preprint arXiv:2304.07987},
year={2023}
}
@misc{Firefly,
author = {Jianxin Yang},
title = {Firefly(流萤): 中文对话式大语言模型},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/yangjianxin1/Firefly}},
}
@misc{xu2023cvalues,
title={CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility},
author={Guohai Xu and Jiayi Liu and Ming Yan and Haotian Xu and Jinghui Si and Zhuoran Zhou and Peng Yi and Xing Gao and Jitao Sang and Rong Zhang and Ji Zhang and Chao Peng and Fei Huang and Jingren Zhou},
year={2023},
eprint={2307.09705},
archivePrefix={arXiv},
primaryClass={cs.CL}
}