Conceptual 12M:面向视觉-语言预训练的大规模图像-文本对数据集
在人工智能的视觉语言领域,图像-文本对数据集对于训练多模态模型至关重要。Conceptual 12M(CC12M)是一个包含1200万图像-文本对的数据集,专门用于视觉-语言预训练。
关键技术元素:
大规模数据集:包含1200万图像-文本对,适用于视觉-语言预训练。
数据收集:数据收集流程相对于Conceptual Captions 3M(CC3M)有所放宽。
图像和文本:数据集默认不下载图像,而是提供图像的URL。文本描述为英文。
数据集描述:
数据集结构:
数据集创建:
使用数据的考虑:
社会影响:数据集的社会影响将在即将发布的论文中描述。
偏见讨论:数据集的偏见问题将在即将发布的论文中讨论。
其他已知限制:数据集的其他已知限制将在即将发布的论文中描述。
附加信息:
数据集策展人:Soravit Changpinyo, Piyush Sharma, Nan Ding 和 Radu Soricut。
许可信息:数据集可自由使用,但建议在使用数据集时声明Google为数据源。
引用信息:提供了数据集的引用格式。
数据集地址:
对于想要获取conceptual_12m数据集的研究人员和开发者,可以访问以下链接:
通过上述内容,我们可以看到Conceptual 12M数据集的主要技术元素包括其大规模的图像-文本对集合和对多种视觉-语言任务的支持。这些元素共同构成了数据集的核心特性,使其成为一个在图像描述生成和多模态学习领域非常有用的工具。