BhashaBench V1
收藏arXiv2025-10-30 更新2025-10-31 收录
下载链接:
https://bharatgen-iitb-tih.github.io/bhashabenchv1/
下载链接
链接失效反馈资源简介:
BhashaBench V1是一个全面的、针对印度特定知识系统的多任务、双语文本数据集,用于评估大型语言模型(LLMs)。该数据集包含74166个经过精心策划的问题和答案对,其中52494个用英语编写,21672个用印地语编写,来源于真实的政府和特定领域的考试。数据集涵盖了农业、法律、金融和印度传统医学四大主要领域,包括90多个子领域和500多个主题,支持对模型在印度多样知识领域的深入评估。该数据集的创建旨在解决印度特定领域和语言中现有基准的局限性,为评估模型在不同领域的文化理解和专业知识提供了一种工具。
提供机构:
印度理工学院孟买分校BharatGen团队
创建时间:
2025-10-29
原始信息汇总
BHASHABENCH V1 数据集概述
数据集基本信息
- 数据集名称: BHASHABENCH V1
- 数据规模: 74,166个精心策划的问答对
- 语言分布:
- 英语: 52,494个问题(70.8%)
- 印地语: 21,672个问题(29.2%)
核心领域覆盖
主要领域
- 农业(Agriculture)
- 法律(Legal)
- 金融(Finance)
- 阿育吠陀(Ayurveda)
细分范围
- 90+个子领域
- 500+个主题
- 支持细粒度评估
任务格式
- 多项选择题
- 断言推理题
- 填空题
- 阅读理解题
- 超过90%为多项选择题
数据来源与质量
数据收集
- 来自国家和州级评估的真实考试材料
- 涵盖40多种不同类型的考试
- 包括:国家竞争性考试、领域特定学位考试、专业认证考试、州级公务员考试
数据处理
- 使用Surya OCR进行高质量文本提取
- 基于GPT的系统将内容结构化为标准JSON问答对
- 经过广泛的清理和去重
- 严格的专家验证确保准确性和文化相关性
难度级别
- 简单(Easy)
- 中等(Medium)
- 困难(Hard)
评估结果概况
- 评估了29+个大型语言模型
- 模型在不同领域和语言间存在显著性能差距
- 模型在所有领域中英语内容的表现均优于印地语
- 具体表现示例:GPT-4o在法律领域准确率达76.49%,在阿育吠陀领域仅为59.74%
资源获取
- 所有代码、基准和资源均公开可用
- 支持开放研究
AI搜集汇总
数据集介绍

构建方式
在印度知识体系评估需求日益增长的背景下,BhashaBench V1通过系统化收集超过40种政府及专业考试资料构建而成。该数据集采用先进的OCR技术处理多语言文档,并利用GPT-OSS-120B模型进行结构化提取,最终形成包含74,166个双语问答对的标准化数据集。数据来源于国家级竞争性考试、专业资格认证及地方级测评,涵盖农业、法律、金融与阿育吠陀四大核心领域,确保了数据来源的权威性与实践相关性。
使用方法
该数据集支持零样本评估框架,研究者可通过标准化提示模板对模型进行跨领域能力测评。对于开源模型,推荐使用LM-Evaluation-Harness工具库进行概率对数评估;对于闭源模型,则可通过API接口采用生成式评估策略。评估过程需保持问题上下文独立性,并通过多轮实验取平均值以确保结果稳定性,最终实现模型在印度特定知识领域与文化语境中的性能量化。
背景与挑战
背景概述
BhashaBench V1于2025年由BharatGen团队发布,是首个专注于印度知识系统的领域特定、多任务、双语基准数据集。该数据集涵盖农业、法律、金融和阿育吠陀四大关键领域,包含74,166个精心构建的问题-答案对,其中52,494条为英文,21,672条为印地语。其核心研究目标在于解决现有基准以英语为中心且缺乏文化敏感性的局限,通过从政府及专业考试中提取真实题目,系统评估大语言模型在印度语境下的领域知识与双语理解能力。该数据集通过细分90余个子领域和500多个主题,推动了跨文化人工智能评估范式的革新。
当前挑战
BhashaBench V1面临双重挑战:在领域问题层面,需解决模型对印度传统知识系统(如阿育吠陀)的认知鸿沟,例如GPT-4o在法律领域准确率达76.49%而在阿育吠陀仅59.74%;同时需克服印地语与英语间的性能差异,所有模型在英语内容上均表现更优。在构建过程中,需处理多语言OCR识别中梵文术语与专业词汇的校正难题,整合40余种考试资料的异构格式,并通过专家验证确保文化语境与专业准确性的平衡。
常用场景
经典使用场景
在印度本土知识系统评估领域,BhashaBench V1作为首个针对农业、法律、金融和阿育吠陀四大关键领域的双语基准数据集,其经典应用场景集中于全面评估大语言模型在印度文化语境下的专业知识和推理能力。该数据集通过涵盖90余个子领域和500多个具体主题的精细分类,为模型在印度中心化知识体系中的表现提供了多维度、细粒度的评估框架,尤其擅长揭示模型在传统医学与现代金融等差异化领域中的认知边界。
解决学术问题
该数据集有效解决了现有基准以英语为中心、缺乏文化特异性评估的学术研究空白,通过严谨构建的双语问题对体系,量化了大语言模型在印度本土知识系统中存在的领域性能差异与语言能力鸿沟。其核心学术价值在于揭示了模型在阿育吠陀等传统知识领域表现显著弱于现代法律领域的现象,为跨文化自然语言处理研究提供了关键实证基础,推动了领域自适应与多语言模型优化的理论发展。
实际应用
在实际应用层面,BhashaBench V1为印度农业咨询、法律文书处理、金融合规检测及传统医疗知识传承等场景提供了可靠的模型能力验证标准。通过基于真实政府及专业考试题源的权威数据,该基准能指导开发适用于印度农村地区的智能农业助手、支持多语种法律文档分析的司法辅助系统,以及构建符合印度金融监管要求的风险控制模型,显著提升了人工智能技术在印度社会关键领域落地的实用性与安全性。
数据集最近研究
最新研究方向
随着大语言模型在印度本土化应用需求的激增,BhashaBench V1作为首个面向印度知识体系的双语评估基准,正推动领域特定模型的前沿探索。当前研究聚焦于破解模型在传统医学阿育吠陀与低资源农业子领域的性能瓶颈,同时针对印地语与英语间的表现鸿沟开展跨语言知识迁移机制分析。该数据集通过覆盖法律、金融等90余个子领域的细粒度评估,揭示了GPT-4o在法律领域达76.49%准确率却在阿育吠陀骤降至59.74%的典型现象,促使学界构建融合文化语境的双语增强策略。其提供的7.4万条高质量问答对正加速印度中心化模型的研发进程,为弥合数字鸿沟提供关键基础设施。
相关研究论文
- 1BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains印度理工学院孟买分校(印度理工学院孟买分校) · 2025年
以上内容由AI搜集并总结生成



