Visual Genome:连接语言和视觉的众包密集图像注释数据集
来源: | 作者:DE.Tech | 发布时间: 2024-05-10 | 343 次浏览 | 分享到:

Visual Genome:连接语言和视觉的众包密集图像注释数据集

    

    

    

   

    

   

    

    在人工智能的视觉语言领域,理解图像内容并用语言描述图像是一个挑战性的任务。Visual Genome数据集是一个知识库,旨在通过众包的方式连接结构化的图像概念和语言。

关键技术元素:

  1. 图像概念:数据集包含108,077张图像,每张图像平均有35个对象、26个属性和21个对象间的关系。

  2. 区域描述:包含540万个区域描述,提供图像中特定区域的文本描述。

  3. 视觉问答:包含170万个视觉问答对,用于评估模型对图像内容的理解。

  4. 对象实例:识别和标注了380万个对象实例。

  5. 属性:标注了280万个属性,描述图像中对象的特性。

  6. 关系:识别了230万个对象间的关系。

数据集描述:

  • 数据集摘要:Visual Genome是为了推动图像描述和问答等认知任务而创建的,它包含了丰富的图像内容和相应的文本描述。

  • 支持的任务:图像描述、视觉问答、对象识别、属性检测和关系预测。

  • 语言:所有注释均使用英文。

数据集结构:

  • 数据实例:每个实例包含图像、图像ID、URL、尺寸、COCO和Flickr索引、区域、对象、属性和关系等信息。

  • 数据字段:详细列出了数据集中的字段,包括图像、区域描述、对象、属性和关系等。

  • 数据分割:所有数据包含在训练集中。

数据集创建:

  • 策划原理:通过众包的方式收集图像和文本对,以支持图像描述和问答任务。

  • 源数据:使用Amazon Mechanical Turk(AMT)收集数据,超过33,000名工作者参与了数据的注释。

使用数据的考虑:

  • 社会影响:数据集可能对计算机视觉和自然语言处理领域的研究产生积极影响。

  • 偏见讨论:数据集的偏见问题需要进一步分析。

  • 其他已知限制:数据集的局限性和潜在的应用场景需要进一步探讨。

附加信息:

  • 数据集策展人:Ranjay Krishna 和其他合作者。

  • 许可信息:数据集采用Creative Commons Attribution 4.0 International License。

  • 引用信息:提供了数据集的引用格式。

数据集地址:

对于想要获取visual_genome数据集的研究人员和开发者,可以访问以下链接:

通过上述内容,我们可以看到Visual Genome数据集的主要技术元素包括其丰富的图像-文本对、对象实例、属性和关系标注。这些元素共同构成了数据集的核心特性,使其成为一个在图像描述、视觉问答和多模态学习领域非常有用的工具。


返回
深度元素科技,您的信赖之选