Conceptual Captions:大规模图像描述数据集
来源: | 作者:DE.Tech | 发布时间: 2024-05-10 | 349 次浏览 | 分享到:

Conceptual Captions:大规模图像描述数据集

    

    

    

    在人工智能的视觉语言领域,图像描述生成是一个重要的研究方向。Conceptual Captions数据集提供了一个大规模的图像描述数据集,包含约330万张图像及其对应的描述性文本。

关键技术元素:

  1. 大规模数据集:包含约3.3M图像和描述对。

  2. 自动生成:使用自动化流水线从网络中提取、过滤和转换图像/描述对。

  3. 多样化风格:与COCO等策划风格的数据集不同,Conceptual Captions的图像和原始描述来自网络,代表了更广泛的风格。

  4. 图像URL:数据集默认不下载图像,而是提供图像的URL。

  5. 支持任务:适用于图像描述生成任务。

数据集描述:

  • 数据集摘要:数据集包含从网络中提取的图像和Alt-text HTML属性中的描述文本。

  • 预处理:提供了Python代码示例,展示如何从URL下载图像。

  • 支持的任务:图像描述生成,提供了相关的排行榜链接。

  • 语言:所有描述均为英文。

数据集结构:

  • 数据实例:提供了未标记(unlabeled)和标记(labeled)两种配置的示例,包括图像URL、描述、机器生成的标签和置信度分数。

  • 数据字段:详细列出了数据集中的字段,包括图像URL、描述、标签、MID和置信度分数。

  • 数据分割:提供了训练集和验证集的分割。

数据集创建:

  • 策划原理:旨在创建一个比COCO数据集大一个数量级的新数据集。

  • 源数据:使用Flume流水线处理数十亿网络网页,提取、过滤和处理候选图像和描述对。

使用数据的考虑:

  • 社会影响:[更多信息需要]

  • 偏见讨论:[更多信息需要]

  • 其他已知限制:[更多信息需要]

附加信息:

  • 数据集策展人:Piyush Sharma, Nan Ding, Sebastian Goodman 和 Radu Soricut。

  • 许可信息:数据集可自由使用,但建议在使用数据集时声明Google为数据源。

  • 引用信息:提供了相关论文的引用格式。

数据集地址:

对于想要获取conceptual_captions数据集的研究人员和开发者,可以访问以下链接:

通过上述内容,我们可以看到Conceptual Captions数据集的主要技术元素包括其大规模的图像描述对、自动化的数据生成流水线以及多样化的图像描述风格。这些元素共同构成了数据集的核心特性,使其成为一个在图像描述生成领域非常有用的工具。


返回
深度元素科技,您的信赖之选