IndicParam

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/bharatgenai/IndicParam

下载链接

链接失效反馈

官方服务：

资源简介：

IndicParam是一个研究生级别的基准测试，旨在评估大型语言模型（LLMs）对低资源和极低资源印度语言的理解能力。数据集包含来自官方UGC-NET语言试题和答案的13,207道多选题（MCQs），涵盖11种印度语言以及一个单独的梵语-英语混合代码集。这些题目分为语言理解（语言学、语法等）和常识（文学、文化、历史等）两大类。数据集支持多种任务，包括多选题回答、语言理解评估、常识评估和问题类型评估。所有问题均以目标语言的本土文字（或梵语-英语混合代码形式）呈现。数据集仅提供评估用的测试集，无专门的训练/验证集。

创建时间：

2025-11-26

原始信息汇总

数据集概述：IndicParam

数据集简介

IndicParam 是一个研究生级别的基准测试数据集，旨在评估大型语言模型（LLMs）对低资源及极低资源印度语言的理解能力。该数据集包含13,207道多项选择题（MCQs），涵盖11种印度语言以及一个独立的梵语-英语混合语集，所有题目均源自官方的UGC-NET语言试卷和答案。

支持的任务

multiple-choice-qa：评估LLMs在低资源印度语言上的研究生级别多项选择题问答能力。
language-understanding-evaluation：使用明确标注的题目评估语言特定能力（形态学、句法学、语义学、语篇）。
general-knowledge-evaluation：衡量在文学、文化、历史及相关学科领域的事实性和领域知识。
question-type-evaluation：分析模型在不同MCQ格式（普通MCQ、断言-推理、列表匹配等）上的表现。

语言覆盖

IndicParam 涵盖以下语言及一种混合语变体：

低资源语言（4种）：尼泊尔语、古吉拉特语、马拉地语、奥里亚语
极低资源语言（7种）：多格拉语、迈蒂利语、拉贾斯坦语、梵语、博多语、桑塔利语、孔卡尼语
混合语：梵语-英语混合语

书写系统：

天城文：尼泊尔语、马拉地语、迈蒂利语、孔卡尼语、博多语、多格拉语、拉贾斯坦语、梵语
古吉拉特文：古吉拉特语
奥里亚文：奥里亚语
桑塔利文：桑塔利语

所有问题均以目标语言的原生文字（或梵语-英语混合语形式）呈现。

数据集结构

数据实例

每个实例是UGC-NET语言试卷中的一道MCQ。示例如下（迈蒂利语）： json { "unique_question_id": "782166eef1efd963b5db0e8aa42b9a6e", "subject": "Maithili", "exam_name": "Question Papers of NET Dec. 2012 Maithili Paper III hindi", "paper_number": "Question Papers of NET Dec. 2012 Maithili Paper III hindi", "question_number": 1, "question_text": "मिथिलाभाषा रामायण में सीताराम-विवाहक वर्णन भेल अछि -", "option_a": "बालकाण्डमें", "option_b": "अयोध्याकाण्डमे", "option_c": "सुन्दरकाण्डमे", "option_d": "उत्तरकाण्डमे", "correct_answer": "a", "question_type": "Normal MCQ" }

题目范围涵盖：

语言理解：语言学和语法（音系学、形态学、句法学、语义学、语篇）。
常识：文学、作者、作品、文化概念、历史及相关事实内容。

数据字段

unique_question_id：每道题的唯一标识符。
subject：语言/科目名称。
exam_name：完整的考试名称（UGC-NET届次和科目）。
paper_number：UGC-NET给出的试卷标识符。
question_number：在原试卷中的题目序号。
question_text：目标语言（或梵语-英语混合语）的题目文本。
option_a, option_b, option_c, option_d：四个答案选项。
correct_answer：正确选项标签。
question_type：题目格式，包括：Normal MCQ、Assertion and Reason、List Matching、Fill in the blanks、Identify incorrect statement、Ordering。

数据划分

IndicParam 仅提供一个单一评估划分：

划分	题目数量
test	13,207

所有数据行仅用于评估（无专用的训练/验证划分）。

语言分布

基准测试遵循IndicParam论文中报告的分布：

语言	题目数量	书写系统	代码
Nepali	1,038	Devanagari	npi
Marathi	1,245	Devanagari	mar
Gujarati	1,044	Gujarati	guj
Odia	577	Orya	ory
Maithili	1,286	Devanagari	mai
Konkani	1,328	Devanagari	gom
Santali	873	Olck	sat
Bodo	1,313	Devanagari	brx
Dogri	1,027	Devanagari	doi
Rajasthani	1,190	Devanagari	–
Sanskrit	1,315	Devanagari	san
Sans-Eng	971	(code-mixed)	–
总计	13,207

每种语言的题目均来自其相应的UGC-NET语言试卷。

数据集创建

来源与收集

来源：官方的UGC-NET语言试卷和答案，从UGC-NET/NTA网站下载。
范围：涵盖多个考试届次和年份，包括11种语言及梵语-英语混合语的语言/文学和语言学试卷。
提取：
- 可直接解析机器可读的PDF。
- 非可选PDF使用OCR处理。
- 所有文本在保留原始文字和内容的同时进行规范化。

标注

除了原始MCQ，每道题还标注了题目类型：

题目类型：多项选择、断言-推理、列表匹配、填空、识别错误陈述、排序。

这些标注支持对模型在知识 vs. 语言能力以及题目格式上的行为进行细粒度分析。

使用注意事项

社会影响

IndicParam旨在：

实现对代表性不足的印度语言的严格评估，这些语言使用人口众多但网络存在感极低。
鼓励构建在印度文字和语言现象上表现稳健的文化根基型AI系统。
揭示高资源与低/极低资源印度语言之间的性能差距，为未来的预训练和数据收集工作提供信息。

用户应注意，内容源自学术考试，可能过度代表正式、考试风格的语言，而非日常使用。

评估指南

为确保与论文一致并允许可比性：

任务：将每个实例视为具有四个选项的多项选择题问答项目。
输入格式：向模型呈现question_text及四个选项。
所需输出：单个选项标签，无需解释。
解码：使用贪婪解码 / temperature = 0 / do_sample = False 以确保确定性输出。
指标：基于预测选项与correct_answer的精确匹配计算准确率。
分析：
- 报告总体准确率。
- 按语言细分结果。

附加信息

引用信息

若在研究中使用了IndicParam，请引用： bibtex @misc{maheshwari2025indicparambenchmarkevaluatellms, title={IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages}, author={Ayush Maheshwari and Kaushal Sharma and Vivek Patel and Aditya Maheshwari}, year={2025}, eprint={2512.00333}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.00333}, }

许可证

CC-BY-NC-4.0 IndicParam 发布用于非商业研究和评估。

致谢

IndicParam由作者和母语标注者根据论文描述进行整理和标注。感谢UGC-NET/NTA公开考试材料，以及更广泛的印度NLP社区提供的基础工具和资源。

搜集汇总

数据集介绍

构建方式

在低资源语言评估领域，IndicParam数据集的构建体现了严谨的学术溯源精神。其核心数据来源于印度大学教育资助委员会（UGC-NET）官方发布的语言学科试题与标准答案，涵盖了11种印度语言及一个梵英混合语变体。构建过程采用双重技术路径：对于机器可读的PDF文件直接进行解析提取；对于非可选文本的PDF则借助光学字符识别技术进行转换。所有文本均经过规范化处理，在忠实保留原始语言脚本与内容完整性的同时，还系统标注了包括常规多选题、断言推理题、列表匹配题在内的六种试题类型，为后续的细粒度模型能力分析奠定了结构化基础。

使用方法

使用该数据集进行模型评估需遵循标准化的科学流程。评估者需从官方代码库获取专用脚本，通过配置模型路径与输出目录启动评估程序。脚本将自动加载数据文件，并依据语言特性构建多选题提示模板，随后记录模型预测结果并计算准确率指标。为确保评估结果的可比性与严谨性，操作中必须采用确定性解码策略，即设置温度参数为零并进行贪婪解码。输出要求模型直接返回单一选项标签，最终以选项完全匹配作为准确率计算依据。评估报告需呈现整体准确率与分语言详细结果，从而系统揭示模型在不同语言及试题类型上的能力差异。

背景与挑战

背景概述

随着大语言模型在主流语言任务上展现出卓越性能，其在低资源语言上的能力评估成为自然语言处理领域亟待探索的前沿课题。IndicParam数据集于2025年由Ayush Maheshwari等研究人员创建，旨在系统评估大语言模型对印度次大陆低资源及极低资源语言的理解能力。该数据集从印度大学拨款委员会国家资格考试（UGC-NET）的语言学科试卷中提取了涵盖11种印度语言及一个梵英混合语种的13,207道多项选择题，内容涉及语言学知识与文学文化常识。该基准的建立为衡量模型在多样文字系统及复杂语言现象上的表现提供了标准化工具，推动了多语言人工智能在资源匮乏语言环境下的公平性发展。

当前挑战

IndicParam数据集所应对的核心挑战在于解决大语言模型在低资源印度语言上的评估缺失问题，这些语言虽拥有大量母语者，但数字文本资源极为稀缺，导致现有模型对其语言结构及文化内涵的掌握不足。构建过程中的挑战则体现在数据采集与处理的复杂性上：官方考试材料多为非结构化PDF格式，部分需借助光学字符识别技术进行提取，且需在跨多种文字系统（如天城文、古吉拉特文、奥里亚文等）的情况下保持文本的原始脚本与语义完整性。此外，数据标注需区分问题类型与知识范畴，以支持对模型能力进行细粒度分析，这要求标注者具备相应的语言学专业知识。

常用场景

经典使用场景

在低资源语言模型评估领域，IndicParam数据集为衡量大语言模型在多种低资源及极低资源印度语言上的理解能力提供了标准化基准。其经典使用场景集中于对模型进行研究生级别的多项选择题问答评估，涵盖从语言学结构到文学文化知识的广泛内容。研究者通过该数据集能够系统性地测试模型在尼泊尔语、古吉拉特语、马拉地语、奥里亚语等11种语言上的表现，尤其关注其处理原生文字脚本和复杂语言现象的能力。

解决学术问题

该数据集有效解决了自然语言处理领域中关于低资源语言模型能力评估的若干核心学术问题。它通过提供大规模、高质量的多选题集合，使得研究者能够量化模型在形态学、句法学、语义学等语言学维度上的掌握程度，同时区分模型的语言理解能力与事实性知识储备。其重要意义在于揭示了当前大语言模型在资源匮乏语言上存在的性能鸿沟，为后续的模型预训练、数据收集以及跨语言迁移学习研究提供了关键的实证基础。

实际应用

在实际应用层面，IndicParam数据集为开发面向印度多元语言环境的智能教育系统和语言技术工具提供了重要的评估依据。基于该基准的模型测试结果，能够指导技术开发者优化机器翻译、智能辅导、内容审核等系统在特定印度语言上的性能。此外，该数据集有助于推动构建更具文化包容性的人工智能，确保技术产品能够服务于使用低资源印度语言的庞大用户群体，弥合数字时代的语言鸿沟。

数据集最近研究