Japanese-Heron-Bench：评估日语视觉-语言模型的基准测试

数据集空间

来源: | 作者:DE.Tech | 发布时间: 2024-05-10 | 1064 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

Japanese-Heron-Bench：评估日语视觉-语言模型的基准测试

在人工智能的视觉-语言模型（VLM）领域，对于特定语言和文化背景下的图像理解与生成描述的能力评估至关重要。"Japanese-Heron-Bench"数据集是一个专为评估日语视觉-语言模型（VLMs）而设计的基准测试。

关键技术元素：

基准测试：用于评估日语视觉-语言模型的性能。
图像与问题：收集了与日本相关的21幅图像，并为每幅图像准备了三个类别的问题：对话（Conversation）、细节（Detail）和复杂（Complex），每个类别包含一到两个问题。
问题数量：最终评估数据集包含102个问题。
子类别：每幅图像被分配到七个子类别之一：动漫（anime）、艺术（art）、文化（culture）、食物（food）、风景（landscape）、地标（landmark）和交通（transportation）。

数据集描述：

数据集摘要：Japanese-Heron-Bench旨在通过一系列精心设计的问题和图像，评估模型对日语的视觉-语言任务的理解能力。
用途：数据集包含公共领域或在Creative Commons Attribution许可下的图像。

数据集使用：

许可证：详细许可证信息可在LICENSE.md文件中找到。

引用信息：

如果您在研究中使用了Japanese-Heron-Bench数据集，请引用以下文献：

@misc{inoue2024heronbench,      title={Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese},
      author={Yuichi Inoue and Kento Sasaki and Yuma Ochi and Kazuki Fujii and Kotaro Tanahashi and Yu Yamaguchi},
      year={2024},
      eprint={2404.07824},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}