Visual Genome:连接语言和视觉的众包密集图像注释数据集
在人工智能领域,理解图像内容并用语言描述图像是一项挑战性任务。Visual Genome数据集是一个知识库,旨在通过众包的方式连接结构化的图像概念和语言。
关键技术元素:
图像概念:数据集包含108,077张图像,每张图像平均有35个对象、26个属性和21个对象间的关系。
区域描述:包含540万个区域描述,提供图像中特定区域的文本描述。
视觉问答:包含170万个视觉问答对,用于评估模型对图像内容的理解。
对象实例:识别和标注了380万个对象实例。
属性:标注了280万个属性,描述图像中对象的特性。
关系:识别了230万个对象间的关系。
数据集描述:
数据集结构:
数据集创建:
使用数据的考虑:
附加信息:
数据集地址:
对于想要获取visual_genome数据集的研究人员和开发者,可以访问以下链接:
通过上述内容,我们可以看到Visual Genome数据集的主要技术元素包括其丰富的图像-文本对、对象实例、属性和关系标注。这些元素共同构成了数据集的核心特性,使其成为图像描述、视觉问答和多模态学习领域研究的重要资源。