Conceptual 12M:面向视觉-语言预训练的大规模图像-文本对数据集
来源: | 作者:DE.Tech | 发布时间: 2024-05-10 | 367 次浏览 | 分享到:

Conceptual 12M:面向视觉-语言预训练的大规模图像-文本对数据集

    

    

    

   

    

   

    在人工智能的视觉语言领域,图像-文本对数据集对于训练多模态模型至关重要。Conceptual 12M(CC12M)是一个包含1200万图像-文本对的数据集,专门用于视觉-语言预训练。

关键技术元素:

  1. 大规模数据集:包含1200万图像-文本对,适用于视觉-语言预训练。

  2. 数据收集:数据收集流程相对于Conceptual Captions 3M(CC3M)有所放宽。

  3. 图像和文本:数据集默认不下载图像,而是提供图像的URL。文本描述为英文。

数据集描述:

  • 数据集摘要:Conceptual 12M是一个大型数据集,用于训练能够识别长尾视觉概念的模型。

  • 预处理:提供了Python代码示例,展示如何从URL下载图像。

  • 支持的任务:适用于图像描述生成任务。

数据集结构:

  • 数据实例:每个实例代表单个图像及其对应的文本描述。

  • 数据字段:包括图像URL和文本描述。

  • 数据分割:目前只有训练数据,共12423374行。

数据集创建:

  • 策划原理:与CC3M共享相同的数据收集流程,但在某些处理步骤上放宽了要求。

  • 源数据:从Common Crawl的HTML文档中提取图像和文本对,通过图像和文本级别的过滤过程,以最小成本排除非信息性图像或文本对。

使用数据的考虑:

  • 社会影响:数据集的社会影响将在即将发布的论文中描述。

  • 偏见讨论:数据集的偏见问题将在即将发布的论文中讨论。

  • 其他已知限制:数据集的其他已知限制将在即将发布的论文中描述。

附加信息:

  • 数据集策展人:Soravit Changpinyo, Piyush Sharma, Nan Ding 和 Radu Soricut。

  • 许可信息:数据集可自由使用,但建议在使用数据集时声明Google为数据源。

  • 引用信息:提供了数据集的引用格式。

数据集地址:

对于想要获取conceptual_12m数据集的研究人员和开发者,可以访问以下链接:

通过上述内容,我们可以看到Conceptual 12M数据集的主要技术元素包括其大规模的图像-文本对集合和对多种视觉-语言任务的支持。这些元素共同构成了数据集的核心特性,使其成为一个在图像描述生成和多模态学习领域非常有用的工具。


返回
深度元素科技,您的信赖之选