COYO-700M:大规模图像-文本对数据集

在人工智能领域,图像-文本对数据集对于训练多模态模型至关重要。kakaobrain/coyo-700m数据集提供了一个大规模的图像-文本对集合,适用于各种机器学习任务,如图像描述生成、文本到图像生成和零样本分类。
关键技术元素:
大规模数据集:包含747M图像-文本对以及多种元属性。
元属性:提供图像的感知哈希(pHash)、文本长度、单词数量、BERT和GPT分词数量、图像中的人脸数量等。
自动化构建:数据集的构建过程完全自动化,无需人工注释。
图像和文本过滤:通过图像和文本级别的过滤过程,减少非信息性图像或文本对。
数据来源:Common Crawl提供的HTML文档中的alt-text和图像源。
数据集描述:
数据集结构:
数据集创建:
使用数据的考虑:
社会影响:数据集的社会影响将在即将发布的论文中描述。
偏见讨论:数据集的偏见问题将在即将发布的论文中讨论。
其他已知限制:数据集的其他已知限制将在即将发布的论文中描述。
附加信息:
数据集策展人:Kakao Brain Large-Scale AI Studio。
许可信息:COYO数据集在CC-BY-4.0许可下发布。
引用信息:如果将此数据集应用于任何项目和研究,请引用提供的代码。
数据下载地址:
对于想要获取coyo-700m数据集的研究人员和开发者,可以访问以下链接:
通过上述内容,我们可以看到coyo-700m数据集的主要技术元素包括其大规模的图像-文本对集合和丰富的元属性信息。这些元素共同构成了数据集的核心特性,使其成为一个在多模态学习和人工智能研究中非常有用的工具。