RedCaps:来自Reddit的大规模图像-文本对数据集
来源: | 作者:DE.Tech | 发布时间: 2024-05-10 | 352 次浏览 | 分享到:

RedCaps:来自Reddit的大规模图像-文本对数据集

    

    

    

   

    在人工智能的视觉语言领域,图像-文本对数据集对于训练多模态模型至关重要。RedCaps数据集提供了一个大规模的图像-文本对集合,适用于图像描述生成、视觉表示学习以及各种下游视觉识别任务。

关键技术元素:

  1. 大规模数据集:包含约1200万图像-文本对。

  2. 来源:数据集从Reddit收集,涉及多种对象和场景。

  3. 自动数据收集:使用自动化流水线从Reddit的特定子版块中提取图像和标题。

  4. 预处理:提供了Python代码示例,展示如何从提供的URL下载图像。

  5. 支持任务:适用于图像描述生成和多种视觉识别任务。

数据集描述:

  • 数据集摘要:RedCaps数据集从Reddit的350个子版块中收集了约1200万图像-文本对,这些数据对由Reddit用户上传,反映了社交媒体上常见的日常内容。

  • 预处理:数据集默认不下载图像,而是提供图像的URL。提供了代码示例,用于下载图像。

  • 支持的任务:图像描述生成、图像分类、目标检测、实例分割等。

  • 语言:所有子版块主要使用英文。

数据集结构:

  • 数据实例:每个实例代表单个Reddit图像帖子,包含图像ID、作者、图像URL、原始标题、清洗后的标题、子版块名称、得分、创建时间、永久链接和可能的交叉帖子父帖子列表。

  • 数据字段:详细列出了数据集中的字段,如图像ID、作者、图像URL、标题、子版块、得分等。

  • 数据分割:所有数据包含在训练集中,训练集包含约1200万实例。

数据集创建:

  • 策划原理:旨在创建一个用于预训练的大规模数据集,适用于多种视觉和视觉-语言任务。

  • 源数据:使用Reddit API从选定的子版块中下载图像帖子。

使用数据的考虑:

  • 社会影响:数据集可能包含有害的刻板印象,已采取措施减少此类内容。

  • 偏见讨论:Reddit用户群体的特定特征可能导致数据集中的偏差。

  • 其他已知限制:数据集设计为嘈杂的,反映了互联网上图像-文本对的自然状态。

附加信息:

  • 数据集策展人:Karan Desai、Gaurav Kaul、Zubin Aysola 和 Justin Johnson。

  • 许可信息:图像元数据遵循CC-BY 4.0许可,使用数据集时需遵守Reddit API条款和用户协议。

  • 引用信息:提供了数据集的引用格式。

数据集地址:

对于想要获取red_caps数据集的研究人员和开发者,可以访问以下链接:

通过上述内容,我们可以看到RedCaps数据集的主要技术元素包括其大规模的图像-文本对集合、自动化的数据收集流水线、以及对多种视觉语言任务的支持。这些元素共同构成了数据集的核心特性,使其成为一个在多模态学习和人工智能研究中非常有用的工具。


返回
深度元素科技,您的信赖之选