多种异构模态数据,如:文本、图像、音视频等
多模态
计算机视觉
通过摄影机和电脑模拟人眼对目标进行识别、跟踪和测量等
自然语言处理
人机交互,让计算机理解和处理人类语言的复杂性和多样性等
音频
表格
通过与环境的交互来学习策略,以达成回报最大化或实现特定目标
强化学习
COIG-CQIA:为中文指令微调提供高质量数据集
2024-05-12
CompGuessWhat?!:多任务框架下评估学习神经表示的数据集
2024-05-10
YouTube Transcriptions:技术教程视频的文字转录数据集
VQA-RAD:放射影像问答数据集的深入分析
RealWorldQA数据集:评估多模态模型的现实世界空间理解能力
PathVQA:病理图像问答数据集的全面解析
Korean Wikipedia Dataset for GPT-2: 韩文维基百科数据集的深度解析
ShareGPT4V 1.2M:推进多模态模型的字幕数据集
Visual Genome:连接语言和视觉的众包密集图像注释数据集
Japanese-Heron-Bench:评估日语视觉-语言模型的基准测试