CompGuessWhat?!:多任务框架下评估学习神经表示的数据集
2024-05-10
YouTube Transcriptions:技术教程视频的文字转录数据集
VQA-RAD:放射影像问答数据集的深入分析
RealWorldQA数据集:评估多模态模型的现实世界空间理解能力
PathVQA:病理图像问答数据集的全面解析
Korean Wikipedia Dataset for GPT-2: 韩文维基百科数据集的深度解析
ShareGPT4V 1.2M:推进多模态模型的字幕数据集
Visual Genome:连接语言和视觉的众包密集图像注释数据集
Japanese-Heron-Bench:评估日语视觉-语言模型的基准测试
LSUN_bedroom_VQA:LSUN卧室视觉问答数据集
LLaVA-Instruct-150K:面向视觉指令调整和多模态能力构建的数据集
MathVista:评估基础模型在视觉上下文中的数学推理能力
New Yorker Caption Contest Benchmarks:挑战AI对幽默的理解