COYO-700M:大规模图像-文本对数据集
来源: | 作者:DE.Tech | 发布时间: 2024-04-29 | 663 次浏览 | 分享到:

COYO-700M:大规模图像-文本对数据集

    在人工智能领域,图像-文本对数据集对于训练多模态模型至关重要。kakaobrain/coyo-700m数据集提供了一个大规模的图像-文本对集合,适用于各种机器学习任务,如图像描述生成、文本到图像生成和零样本分类。

关键技术元素:

  1. 大规模数据集:包含747M图像-文本对以及多种元属性。

  2. 元属性:提供图像的感知哈希(pHash)、文本长度、单词数量、BERT和GPT分词数量、图像中的人脸数量等。

  3. 自动化构建:数据集的构建过程完全自动化,无需人工注释。

  4. 图像和文本过滤:通过图像和文本级别的过滤过程,减少非信息性图像或文本对。

  5. 数据来源:Common Crawl提供的HTML文档中的alt-text和图像源。

数据集描述:

  • 数据集摘要:COYO-700M是一个大规模数据集,用于训练各种模型,如ALIGN、unCLIP和ViT。

  • 支持的任务:图像描述生成、文本到图像生成和零样本分类。

  • 语言:数据集中的文本为英文。

数据集结构:

  • 数据实例:每个实例代表单个图像-文本对信息,包括元属性。

  • 数据字段:包括图像URL、文本、图像尺寸、感知哈希、文本长度、单词数量、BERT和GPT分词数量、图像中的人脸数量、OpenAI CLIP的图像和文本相似度分数、NSFW分数、水印分数和美学分数。

数据集创建:

  • 策划原理:从Common Crawl的HTML文档中收集alt-text和图像源对。

  • 源数据:从2020年10月到2021年8月收集了约100亿对alt-text和图像源。

使用数据的考虑:

  • 社会影响:数据集的社会影响将在即将发布的论文中描述。

  • 偏见讨论:数据集的偏见问题将在即将发布的论文中讨论。

  • 其他已知限制:数据集的其他已知限制将在即将发布的论文中描述。

附加信息:

  • 数据集策展人:Kakao Brain Large-Scale AI Studio。

  • 许可信息:COYO数据集在CC-BY-4.0许可下发布。

  • 引用信息:如果将此数据集应用于任何项目和研究,请引用提供的代码。

数据下载地址:

对于想要获取coyo-700m数据集的研究人员和开发者,可以访问以下链接:

通过上述内容,我们可以看到coyo-700m数据集的主要技术元素包括其大规模的图像-文本对集合和丰富的元属性信息。这些元素共同构成了数据集的核心特性,使其成为一个在多模态学习和人工智能研究中非常有用的工具。


返回
深度元素科技,您的信赖之选