five

INDICIFEVAL

收藏
arXiv2026-02-26 更新2026-02-27 收录
下载链接:
http://github.com/ai4bharat/IndicIFEval
下载链接
链接失效反馈
官方服务:
资源简介:
INDICIFEVAL是由AI4Bharat等机构联合构建的多语言指令遵循评测基准,包含约800条/语言的样本,涵盖14种印度语言。数据集分为两个互补子集:INDICIFEVAL-TRANS通过本地化翻译英文提示构建,实现跨语言可比性;INDICIFEVAL-GROUND则基于印度本土语料库合成生成,反映真实语境约束。数据经过严格的预处理、关键词翻译和人工验证流程,确保文化适应性和语法准确性。该基准旨在评估大模型在低资源语言中的可验证指令遵循能力,填补非英语语言评测的空白。
提供机构:
AI4Bharat·尼勒卡尼中心; 印度理工学院·马德拉斯; 哥本哈根IT大学; 微软·印度
创建时间:
2026-02-26
搜集汇总
数据集介绍
构建方式
在构建INDICIFEVAL数据集时,研究团队采用了双轨并行策略,以应对多语言指令遵循评估的复杂性。INDICIFEVAL-TRANS子集通过对英语IFEval基准进行系统化翻译与本地化处理而构建,涉及关键词提取、独立翻译、预翻译插入及全句翻译等步骤,并辅以正则表达式自动验证与人工校对,确保指令约束在14种印度语言中的准确传递。INDICIFEVAL-GROUND子集则基于本地语料库,通过TF-IDF关键词提取与上下文挖掘,利用大模型生成植根于印度文化背景的合成指令,再经母语者验证,形成了更具自然性与文化相关性的评估样本。
特点
INDICIFEVAL的核心特征在于其全面覆盖14种印度语言,这些语言在形态丰富性、文字系统及数据稀缺性方面差异显著,为多语言与低资源环境下的模型评估提供了重要测试平台。数据集包含约800条经人工验证的样本,通过翻译与本地化生成的INDICIFEVAL-TRANS子集便于与英语基线直接比较,而基于本土内容生成的INDICIFEVAL-GROUND子集则能捕捉更自然的约束场景,两者互补形成了对模型指令遵循能力的多维透视。
使用方法
该数据集主要用于评估大语言模型在多种印度语言中遵循可验证指令的能力,其使用方法遵循标准化评估流程。研究人员可利用配套的评估脚本,对模型在关键词包含、格式约束、长度控制及跨语言响应等指令类别上的表现进行自动化测试,计算提示级与指令级遵循准确率。评估过程整合了针对印度语言优化的分词与句子分割工具,确保在不同文字系统中评分的精确性,从而为模型的多语言能力提供可靠、可复现的量化分析。
背景与挑战
背景概述
随着大型语言模型在多语言场景下的广泛应用,其指令遵循能力的评估长期局限于英语语境,导致对印度语系等低资源语言的支持存在显著空白。为应对这一挑战,AI4Bharat的Nilekani中心、印度马德拉斯理工学院等机构的研究团队于2026年联合发布了INDICIFEVAL基准数据集。该数据集旨在系统评估模型在14种印度语言中遵循可验证、基于规则的指令的能力,核心研究问题聚焦于多语言与低资源环境下模型对结构化约束的理解与执行精度。通过构建包含翻译提示与本土化生成指令的双重子集,INDICIFEVAL为衡量模型在形态丰富、数据稀缺的印度语言家族中的泛化性能提供了重要工具,推动了多语言指令遵循评估向更公平、更全面的方向发展。
当前挑战
INDICIFEVAL所针对的领域挑战在于如何准确评估模型在多样化的低资源语言中遵循复杂指令的能力,尤其是在词汇生成、跨语言任务执行等需精确约束的场景下。构建过程中的挑战则体现为多语言数据的质量保障与自然性平衡:一方面,从英语提示翻译时需克服文化适配、关键词映射歧义及句法结构差异导致的语义失真;另一方面,基于本土语料生成指令时,需确保约束条件在目标语言的语法体系中自然可行,避免直接移植英语范式造成的生硬与不适用。此外,数据验证依赖单语者人工审核,在资源有限条件下维持标注一致性与可靠性亦构成显著挑战。
常用场景
经典使用场景
在自然语言处理领域,多语言指令遵循能力的评估长期受限于英语中心化基准的局限性。INDICIFEVAL数据集通过提供涵盖14种印度语言的自动可验证指令遵循基准,为研究者提供了一个标准化的测试平台。该数据集最经典的使用场景在于系统性地评估大型语言模型在印度语言环境下的约束生成能力,特别是针对关键词包含、格式规范、长度控制及跨语言响应等具体指令的遵循精度。通过其两个互补子集——基于翻译提示的INDICIFEVAL-TRANS和基于本土内容生成的INDICIFEVAL-GROUND,研究者能够从平行对比和文化本土化双重视角全面衡量模型的多语言适应性。
实际应用
在实际应用层面,INDICIFEVAL为开发面向印度语言群体的可靠人工智能系统提供了关键评估工具。它可直接用于测试和优化多语言聊天助手、内容生成工具及本地化信息处理系统在遵循复杂用户指令时的鲁棒性。教育科技领域可利用该基准评估语言模型在生成符合特定格式要求的教学材料时的准确性。在公共服务领域,该数据集有助于确保政府信息自动化系统能够严格遵守语言规范和文化语境约束。此外,它为跨国公司开发符合本地语言习惯的商业应用提供了标准化测试依据。
衍生相关工作
该数据集的发布催生了一系列拓展性研究与实践。在方法论层面,其构建流程启发了类似基准向更多语言家族的扩展,如针对非洲语言或东南亚语言的指令遵循评估框架。在模型优化方面,基于INDICIFEVAL揭示的性能差距,研究者开发了针对印度语言的指令微调技术与跨语言迁移学习策略。评估体系上,该工作促进了多语言可验证评估范式的标准化,影响了后续如Marco-Bench-MIF等更广泛语言覆盖基准的设计理念。同时,其关于翻译与本土化提示差异的发现,推动了跨文化语境下指令数据集构建最佳实践的深入研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作