Visual Genome:连接语言和视觉的众包密集图像注释数据集
来源: | 作者:DE.Tech | 发布时间: 2024-05-10 | 387 次浏览 | 分享到:

Visual Genome:连接语言和视觉的众包密集图像注释数据集


    在人工智能领域,理解图像内容并用语言描述图像是一项挑战性任务。Visual Genome数据集是一个知识库,旨在通过众包的方式连接结构化的图像概念和语言。

关键技术元素:

  1. 图像概念:数据集包含108,077张图像,每张图像平均有35个对象、26个属性和21个对象间的关系。

  2. 区域描述:包含540万个区域描述,提供图像中特定区域的文本描述。

  3. 视觉问答:包含170万个视觉问答对,用于评估模型对图像内容的理解。

  4. 对象实例:识别和标注了380万个对象实例。

  5. 属性:标注了280万个属性,描述图像中对象的特性。

  6. 关系:识别了230万个对象间的关系。

数据集描述:

  • 数据集摘要:Visual Genome是为了推动图像描述和问答等认知任务而创建的,它包含了丰富的图像内容和相应的文本描述。

  • 支持的任务:图像描述、视觉问答、对象识别、属性检测和关系预测。

  • 语言:所有注释均使用英文。

数据集结构:

  • 数据实例:每个实例包含图像、图像ID、URL、尺寸、COCO和Flickr索引、区域、对象、属性和关系等信息。

  • 数据字段:详细列出了数据集中的字段,包括图像、区域描述、对象、属性和关系等。

  • 数据分割:所有数据包含在训练集中。

数据集创建:

  • 策划原理:通过众包的方式收集图像和文本对,以支持图像描述和问答任务。

  • 源数据:使用Amazon Mechanical Turk(AMT)收集数据,超过33,000名工作者参与了数据的注释。

使用数据的考虑:

  • 社会影响:数据集的使用可能对计算机视觉和自然语言处理领域的研究产生积极影响。

  • 偏见讨论:数据集的偏差问题需要进一步分析,以确保生成的描述是公正和准确的。

附加信息:

  • 数据集策展人:Ranjay Krishna 和其他合作者。

  • 许可信息:数据集采用Creative Commons Attribution 4.0 International License。

  • 引用信息:提供了数据集的引用格式。

数据集地址:

对于想要获取visual_genome数据集的研究人员和开发者,可以访问以下链接:

通过上述内容,我们可以看到Visual Genome数据集的主要技术元素包括其丰富的图像-文本对、对象实例、属性和关系标注。这些元素共同构成了数据集的核心特性,使其成为图像描述、视觉问答和多模态学习领域研究的重要资源。


返回
深度元素科技,您的信赖之选