IndicVisionBench
收藏IndicVisionBench 数据集概述
数据集基本信息
- 数据集名称: IndicVisionBench
- 数据集地址: https://huggingface.co/datasets/alifaraz/IndicVisionBench
- 相关论文: “IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs”
- 论文状态: 已被 ICLR 2026 接收
- 论文链接: https://arxiv.org/abs/2511.04727
- 代码仓库: https://github.com/ola-krutrim/IndicVisionBench
数据集简介
IndicVisionBench 是一个基于文化背景的多语言视觉语言基准,旨在评估视觉语言模型在印度语境下的视觉理解任务。该基准强调印度文化背景、区域多样性和印度语言覆盖,用于系统评估多语言和文化感知的视觉语言模型。
覆盖语言
英语、印地语、泰米尔语、泰卢固语、马拉雅拉姆语、马拉地语、古吉拉特语、旁遮普语、奥里亚语、卡纳达语、孟加拉语。
基准配置概述
数据集包含五个主要配置。
| 配置名称 | 任务 | 图像数量 | 描述 |
|---|---|---|---|
mmt |
多模态机器翻译 | 106 | 跨印度语言的基于图像的翻译 |
ocr |
光学字符识别 | 876 | 多种印度文字的OCR |
vqa_en |
视觉问答 | 4,117 | 基于文化的英文VQA |
vqa_indic |
视觉问答 | 1,007 | 基于文化的印度语言VQA |
vqa_parallel |
视觉问答 | 1,166 | 跨多种语言的并行QA对,用于评估跨语言一致性 |
- 所有配置的总图像数: 4993
- VQA En、Indic 和 Parallel 的总问题数: (4117 + 1007 + 1166)*6 = 37,740
子集详细描述
1. 多模态机器翻译 (mmt)
基于图像的翻译基准,包含跨多种印度语言的对齐描述。
- 主要特征:
image,topic,State/UT, 11种语言的并行文本,source_url。 - 评估重点: 文化术语一致性、翻译中的视觉基础。
2. 光学字符识别 (ocr)
包含来自 Wikisource 的印度文字扫描页面的OCR数据集。
- 主要特征:
image,text,language,page_url。 - 评估重点: 对印度文字/语言的OCR能力。
3. 英文视觉问答 (vqa_en)
基于文化的英文视觉问答。
- 每个样本包含: 2个简答题、1个多项选择题(4个选项)、1个判断题、1个长格式推理题、1个对抗性问题。
- 元数据:
topic,language,State/UT,source_url。 - 评估重点: 对象和场景理解、文化知识、细粒度属性识别、对抗性问题中对错误假设的鲁棒性。
4. 印度语言视觉问答 (vqa_indic)
与 vqa_en 结构相同的VQA格式,但使用印度语言。
- 评估重点: 多语言推理、本地语言中的文化对齐。
5. 并行视觉问答 (vqa_parallel)
针对同一图像的并行多语言问答对。
- 评估重点: 跨11种语言(英语和10种印度语言)的视觉语言模型跨语言性能、区域特定优势或偏见。
技术细节
- 任务类别: 视觉问答
- 标签: 视觉、OCR、VQA、印度语言、基准、文化、MMT
- 规模类别: 10K < n < 100K
- 所有配置均仅包含
test拆分。 - 图像直接存储在数据集中,并由 🤗 Datasets 自动加载。
评估维度
该基准旨在衡量:
- 场景和上下文理解
- 属性检测
- 文化理解
- 偏见和对抗鲁棒性
- 跨语言一致性
- OCR性能
- 基于图像的翻译能力
使用方式
使用 datasets 库加载所有配置:
python
from datasets import load_dataset
ds = load_dataset("krutrim-ai-labs/IndicVisionBench", "vqa_en")["test"]
引用
如需使用本数据集,请引用: bibtex @inproceedings{faraz2026indicvisionbench, title={IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs}, author={Ali Faraz and Akash and Shaharukh Khan and Raja Kolla and Akshat Patidar and Suranjan Goswami and Abhinav Ravi and Chandra Khatri and Shubham Agarwal}, booktitle={International Conference on Learning Representations (ICLR)}, year={2026}, url={https://openreview.net/forum?id=LmJoLn04iL} }




