Japanese-Heron-Bench:评估日语视觉-语言模型的基准测试
在人工智能的视觉-语言模型(VLM)领域,对于特定语言和文化背景下的图像理解与生成描述的能力评估至关重要。"Japanese-Heron-Bench"数据集是一个专为评估日语视觉-语言模型(VLMs)而设计的基准测试。
关键技术元素:
基准测试:用于评估日语视觉-语言模型的性能。
图像与问题:收集了与日本相关的21幅图像,并为每幅图像准备了三个类别的问题:对话(Conversation)、细节(Detail)和复杂(Complex),每个类别包含一到两个问题。
问题数量:最终评估数据集包含102个问题。
子类别:每幅图像被分配到七个子类别之一:动漫(anime)、艺术(art)、文化(culture)、食物(food)、风景(landscape)、地标(landmark)和交通(transportation)。
数据集描述:
数据集使用:
引用信息:
如果您在研究中使用了Japanese-Heron-Bench数据集,请引用以下文献:
@misc{inoue2024heronbench, title={Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese},
author={Yuichi Inoue and Kento Sasaki and Yuma Ochi and Kazuki Fujii and Kotaro Tanahashi and Yu Yamaguchi},
year={2024},
eprint={2404.07824},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
数据集地址:
对于想要获取Japanese-Heron-Bench数据集的研究人员和开发者,可以访问以下链接:
通过上述内容,我们可以看到Japanese-Heron-Bench数据集的主要技术元素包括其专注于日语视觉-语言任务的评估,以及它为研究人员提供的问题和图像资源。这些元素共同构成了数据集的核心特性,使其成为在日语视觉-语言模型研究中非常有用的工具。