ParamBench

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/bharatgenai/ParamBench

下载链接

链接失效反馈

官方服务：

资源简介：

ParamBench是一个全面的毕业级别基准，旨在评估大型语言模型（LLM）对印度科目知识的理解。该数据集包含17,275个印地语多项选择题，涵盖印度竞争性考试的21个不同科目。

ParamBench is a comprehensive graduate-level benchmark designed to evaluate large language models (LLMs) on their understanding of knowledge related to Indian subjects. This dataset contains 17,275 Hindi multiple-choice questions covering 21 distinct subjects from Indian competitive examinations.

创建时间：

2025-10-24

原始信息汇总

ParamBench 数据集概述

数据集基本信息

数据集名称: ParamBench
主页地址: https://github.com/bharatgenai/ParamBench
论文地址: https://arxiv.org/abs/2508.16185
许可证: MIT License

数据集描述

ParamBench是一个综合性研究生级别基准测试，专门用于评估大型语言模型对印度学科的理解能力。该数据集包含17,275个印地语多项选择题，涵盖印度竞争性考试中的21个不同学科。

主要特征

语言: 印地语 (hi)
问题数量: 17,275个
学科数量: 21个
数据分割: 仅包含测试集

支持的任务

多项选择题问答
文化知识评估
学科细粒度评估
问题类型评估

数据结构

数据字段

unique_question_id: 唯一问题标识符
subject: 学科类别
exam_name: 来源考试名称
paper_number: 试卷/部分标识符
question_number: 原始考试中的问题编号
question_text: 印地语问题文本
option_a: 第一个选项
option_b: 第二个选项
option_c: 第三个选项
option_d: 第四个选项
correct_answer: 正确答案（A、B、C或D）
question_type: 问题类型

学科分布

学科	问题数量	百分比
Education	1,199	6.94%
Sociology	1,191	6.89%
Anthropology	1,139	6.60%
Psychology	1,102	6.38%
Archaeology	1,076	6.23%
History	996	5.77%
Comparative Study of Religions	954	5.52%
Law	951	5.51%
Indian Culture	927	5.37%
Economics	919	5.32%
Current Affairs	833	4.82%
Philosophy	817	4.73%
Political Science	774	4.48%
Drama and Theatre	649	3.76%
Sanskrit	639	3.70%
Karnataka Music	617	3.57%
Tribal and Regional Language	611	3.54%
Person on Instruments	596	3.45%
Defence and Strategic Studies	521	3.02%
Music	433	2.51%
Yoga	331	1.92%

评估指南

使用贪婪解码（temperature=0）
基于与正确选项的精确匹配进行评估
考虑学科细粒度性能分析
报告总体准确率和各学科细分结果

社会影响

促进文化感知AI系统的发展
减少LLM对西方中心知识的偏见
支持多语言和多元文化AI研究
增强LLM对印度语言和背景的理解能力

搜集汇总

数据集介绍

构建方式

ParamBench数据集通过系统收集印度国家级竞争性考试中的真实试题构建而成，涵盖人类学、社会学、法学等21个学科领域。构建团队从公开的考试题库中筛选出17,275道印地语选择题，每道题目均保留原始考试的结构特征与学科分类，并采用唯一标识符确保数据溯源性。这种基于真实教育场景的构建方式，为评估模型在印度文化语境下的认知能力提供了坚实基础。

使用方法

研究人员可通过加载标准数据文件直接使用该数据集，建议采用贪婪解码策略保持评估一致性。评估时应以选项精确匹配为主要指标，同时支持按学科维度进行分层分析。该数据集适用于多选问答、文化知识评估等任务，使用者可通过学科分类字段实现特定领域的性能诊断，为改进模型在印度文化语境下的表现提供实证依据。

背景与挑战

背景概述

在人工智能领域，大语言模型对多元文化内容的理解能力日益成为研究焦点。ParamBench数据集由BharatGenAI团队于2024年创建，旨在填补印度本土知识评估的空白。该数据集收录了涵盖人类学、社会学等21个学科的17,275道印地语选择题，源自印度国家级竞争性考试，为评估模型在印度文化语境下的认知能力提供了标准化工具。其跨学科特性推动了多语言人工智能系统在学术评估领域的发展，促进了文化适应性研究范式的建立。

当前挑战

ParamBench致力于解决大语言模型在印度文化知识评估中的领域挑战，包括模型对非西方知识体系的认知偏差、跨学科概念的理解深度不足等问题。在构建过程中，团队面临专业术语的语义对齐、多学科知识的结构化整合、以及考试题目版权合规性等难题。这些挑战要求数据集既保持学术严谨性，又能准确反映印度本土文化的复杂性，为开发具有文化敏感性的评估标准提供了重要参考。

常用场景

经典使用场景

在自然语言处理领域，ParamBench作为评估大型语言模型对印度文化知识理解能力的基准数据集，其经典使用场景聚焦于多选问答任务。该数据集通过涵盖人类学、社会学、教育等21个学科领域的17275道印地语试题，系统检验模型在印度本土知识体系中的认知深度。研究人员可借助该基准开展跨学科对比分析，精准评估模型在特定文化语境下的推理能力与知识储备。

解决学术问题

该数据集有效解决了当前语言模型评估体系中存在的文化偏向性问题。通过构建覆盖印度本土知识体系的标准化测试集，填补了非英语文化语境下模型能力评估的空白。其意义在于推动建立更具包容性的人工智能评估范式，为研究多语言模型的认知边界提供量化依据，促进跨文化自然语言理解研究的均衡发展。

实际应用

在实际应用层面，ParamBench为开发面向印度市场的智能教育系统提供核心测评工具。教育科技企业可依据该基准优化本地化知识服务，政府机构能借此评估数字政务系统的文化适应性。此外，该数据集还支撑着跨语言搜索引擎的优化，助力构建真正理解印度文化语义的智能信息系统。

数据集最近研究