COYO-700M:大规模图像-文本对数据集
来源: | 作者:DE.Tech | 发布时间: 2024-05-10 | 430 次浏览 | 分享到:

RedCaps:来自Reddit的大规模图像-文本对数据集

    

    

    

   

    

    在人工智能领域,图像-文本对数据集对于多模态学习任务至关重要。Kakao Brain开源的COYO-700M数据集提供了一个庞大的图像-文本对集合,适用于训练各种机器学习模型,尤其是在图像描述生成、文本到图像生成和零样本分类等任务中。

关键技术元素:

  1. 大规模数据集:包含747M图像-文本对以及多种元属性。

  2. 自动化构建:数据集的构建过程完全自动化,无需人工注释。

  3. 元属性丰富:提供了图像的感知哈希、文本长度、单词数量、BERT和GPT分词数量、图像中的人脸数量等元属性。

  4. 多任务应用:适用于图像描述生成、文本到图像生成和零样本分类等任务。

数据集描述:

  • 数据集摘要:COYO-700M数据集收集了来自HTML文档中的alt-text和关联图像的大量信息对。

  • 支持的任务:图像描述生成、文本到图像生成和零样本分类。

  • 语言:数据集中的文本为英文。

数据集结构:

  • 数据实例:每个实例代表单个图像-文本对信息,包含多种元属性。

  • 数据字段:包括图像URL、文本、图像尺寸、感知哈希、文本长度、单词数量、BERT和GPT分词数量、图像中的人脸数量等。

  • 数据分割:数据未分割,预期在更广泛的下游任务上进行评估。

数据集创建:

  • 策划原理:从Common Crawl的HTML文档中收集alt-text和图像源对,通过图像和文本级别的过滤过程,以最小成本排除非信息性图像或文本对。

使用数据的考虑:

  • 社会影响:数据集的社会影响将在即将发布的论文中描述。

  • 偏见讨论:数据集的偏见问题将在即将发布的论文中讨论。

  • 其他已知限制:数据集的其他已知限制将在即将发布的论文中描述。

附加信息:

  • 数据集策展人:Kakao Brain Large-Scale AI Studio。

  • 许可信息:COYO数据集在CC-BY-4.0许可下发布。

  • 引用信息:如果将此数据集应用于任何项目和研究,请引用提供的代码。

数据集地址:

对于想要获取coco2017数据集的研究人员和开发者,可以访问以下链接:

通过上述内容,我们可以看到COYO-700M数据集的主要技术元素包括其大规模的图像-文本对集合和丰富的元属性信息。这些元素共同构成了数据集的核心特性,使其成为一个在多模态学习和人工智能研究中非常有用的工具。


返回
深度元素科技,您的信赖之选