IndicVisionBench

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/alifaraz/IndicVisionBench

下载链接

链接失效反馈

官方服务：

资源简介：

IndicVisionBench 是一个基于文化背景的多语言视觉语言基准数据集，旨在评估视觉语言模型（VLMs）在印度语境下的视觉理解任务。该数据集包含五个主要配置：多模态机器翻译（mmt）、光学字符识别（ocr）、英语视觉问答（vqa_en）、印度语言视觉问答（vqa_indic）和并行多语言视觉问答（vqa_parallel）。数据集涵盖了11种语言，包括英语和10种印度语言。每个配置都详细描述了其功能、任务和评估维度。数据集总共有4993张图像，VQA任务中的问题总数达到37,740个。该数据集适用于多语言推理、文化对齐、OCR能力和跨语言一致性等任务的研究和评估。

创建时间：

2026-02-28

原始信息汇总

IndicVisionBench 数据集概述

数据集基本信息

数据集名称: IndicVisionBench
数据集地址: https://huggingface.co/datasets/alifaraz/IndicVisionBench
相关论文: “IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs”
论文状态: 已被 ICLR 2026 接收
论文链接: https://arxiv.org/abs/2511.04727
代码仓库: https://github.com/ola-krutrim/IndicVisionBench

数据集简介

IndicVisionBench 是一个基于文化背景的多语言视觉语言基准，旨在评估视觉语言模型在印度语境下的视觉理解任务。该基准强调印度文化背景、区域多样性和印度语言覆盖，用于系统评估多语言和文化感知的视觉语言模型。

覆盖语言

英语、印地语、泰米尔语、泰卢固语、马拉雅拉姆语、马拉地语、古吉拉特语、旁遮普语、奥里亚语、卡纳达语、孟加拉语。

基准配置概述

数据集包含五个主要配置。

配置名称	任务	图像数量	描述
`mmt`	多模态机器翻译	106	跨印度语言的基于图像的翻译
`ocr`	光学字符识别	876	多种印度文字的OCR
`vqa_en`	视觉问答	4,117	基于文化的英文VQA
`vqa_indic`	视觉问答	1,007	基于文化的印度语言VQA
`vqa_parallel`	视觉问答	1,166	跨多种语言的并行QA对，用于评估跨语言一致性

所有配置的总图像数: 4993
VQA En、Indic 和 Parallel 的总问题数: (4117 + 1007 + 1166)*6 = 37,740

子集详细描述

1. 多模态机器翻译 (`mmt`)

基于图像的翻译基准，包含跨多种印度语言的对齐描述。

主要特征: image, topic, State/UT, 11种语言的并行文本, source_url。
评估重点: 文化术语一致性、翻译中的视觉基础。

2. 光学字符识别 (`ocr`)

包含来自 Wikisource 的印度文字扫描页面的OCR数据集。

主要特征: image, text, language, page_url。
评估重点: 对印度文字/语言的OCR能力。

3. 英文视觉问答 (`vqa_en`)

基于文化的英文视觉问答。

每个样本包含: 2个简答题、1个多项选择题（4个选项）、1个判断题、1个长格式推理题、1个对抗性问题。
元数据: topic, language, State/UT, source_url。
评估重点: 对象和场景理解、文化知识、细粒度属性识别、对抗性问题中对错误假设的鲁棒性。

4. 印度语言视觉问答 (`vqa_indic`)

与 vqa_en 结构相同的VQA格式，但使用印度语言。

评估重点: 多语言推理、本地语言中的文化对齐。

5. 并行视觉问答 (`vqa_parallel`)

针对同一图像的并行多语言问答对。

评估重点: 跨11种语言（英语和10种印度语言）的视觉语言模型跨语言性能、区域特定优势或偏见。

技术细节

任务类别: 视觉问答
标签: 视觉、OCR、VQA、印度语言、基准、文化、MMT
规模类别: 10K < n < 100K
所有配置均仅包含 test 拆分。
图像直接存储在数据集中，并由 🤗 Datasets 自动加载。

评估维度

该基准旨在衡量：

场景和上下文理解
属性检测
文化理解
偏见和对抗鲁棒性
跨语言一致性
OCR性能
基于图像的翻译能力

使用方式

使用 datasets 库加载所有配置： python from datasets import load_dataset ds = load_dataset("krutrim-ai-labs/IndicVisionBench", "vqa_en")["test"]

引用

如需使用本数据集，请引用： bibtex @inproceedings{faraz2026indicvisionbench, title={IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs}, author={Ali Faraz and Akash and Shaharukh Khan and Raja Kolla and Akshat Patidar and Suranjan Goswami and Abhinav Ravi and Chandra Khatri and Shubham Agarwal}, booktitle={International Conference on Learning Representations (ICLR)}, year={2026}, url={https://openreview.net/forum?id=LmJoLn04iL} }

搜集汇总

数据集介绍

构建方式

在构建IndicVisionBench数据集的过程中，研究者们精心采集了反映印度文化多样性的视觉素材，并围绕这些图像设计了多语言问答对。数据来源于公开的印度文化相关图像资源，并通过人工标注与自动化流程相结合的方式，生成了涵盖十一种语言的平行文本与问题。每个配置子集，如多模态机器翻译和视觉问答，都经过结构化设计，确保了图像与文本在文化语境上的紧密对齐，从而为评估模型的多语言与文化理解能力奠定了坚实基础。

使用方法

使用IndicVisionBench数据集时，研究人员可通过Hugging Face的`datasets`库便捷加载其五个配置子集。例如，调用`load_dataset`函数并指定`vqa_en`配置，即可获取英语视觉问答的测试数据。数据集中图像已内嵌，可直接用于模型推理。官方GitHub仓库提供了完整的评估代码库，支持对视觉问答、光学字符识别及多模态机器翻译等任务进行端到端的评测，并集成了大语言模型作为评判者的机制，便于对开放式答案进行自动化评估。

背景与挑战

背景概述

在视觉语言模型（VLMs）快速发展的背景下，针对多语言与文化特定场景的评估体系尚不完善。IndicVisionBench数据集由Krutrim AI Labs的研究团队于2026年提出，并被国际学习表征会议（ICLR）收录。该数据集旨在系统评估视觉语言模型在印度文化语境下的多模态理解能力，其核心研究问题聚焦于模型对印度多元文化、区域多样性及十一种印度语言（包括印地语、泰米尔语、孟加拉语等）的视觉与语言协同理解。通过涵盖视觉问答、光学字符识别及多模态机器翻译等任务，该数据集为推进多语言与文化敏感的视觉语言人工智能研究提供了关键基准，显著影响了跨文化人工智能评估领域的发展方向。

当前挑战

IndicVisionBench致力于解决视觉语言模型在文化特定与多语言场景中理解能力不足的核心挑战，其首要挑战在于模型需精准识别印度文化中特有的视觉元素、社会习俗及语境信息，并实现跨语言的语义一致性。构建过程中的挑战尤为显著，包括从多样化的印度区域来源中收集高质量、文化代表性的图像与文本数据，并确保其在十一种语言间的准确对齐与标注。此外，数据集中对抗性问题的设计旨在测试模型对错误假设的鲁棒性，这对标注的严谨性与复杂性提出了更高要求，同时需平衡不同语言与任务的数据规模与质量，以构建一个全面且可靠的评估基准。

常用场景

经典使用场景

在视觉语言模型的多语言与文化理解评估领域，IndicVisionBench数据集提供了一个经典的使用场景。该数据集通过其精心设计的五个配置，系统性地评估模型在印度文化语境下的视觉问答、光学字符识别以及多模态机器翻译能力。研究人员通常利用该数据集对视觉语言模型进行基准测试，特别是在处理包含印度地区多样性和多种印度语言文本的图像时，考察模型是否能够准确理解图像中的文化元素并进行跨语言推理。

解决学术问题

IndicVisionBench数据集有效解决了视觉语言模型研究中关于文化敏感性与多语言泛化能力的核心学术问题。传统视觉语言基准往往缺乏对非西方文化背景的关注，导致模型在理解区域特定视觉内容时表现不佳。该数据集通过引入涵盖11种语言的印度文化视觉内容，为量化模型的文化对齐度和跨语言一致性提供了标准化的评估框架，推动了多模态人工智能在全球化语境下的公平性与包容性发展。

实际应用

该数据集的实际应用场景广泛涉及多语言内容理解与本地化服务。例如，在开发面向印度市场的教育技术产品时，可利用该数据集训练和评估系统，使其能够准确识别并解释包含多种印度语言文本的教材插图。在数字人文领域，该数据集支持对印度历史文献的数字化与多语言检索，助力文化遗产的保存与传播。此外，它也为构建具有文化意识的客户服务聊天机器人或内容审核工具提供了关键的训练与评估资源。

数据集最近研究