BHRAM-IL
收藏arXiv2025-12-02 更新2025-12-03 收录
下载链接:
https://github.com/sambhashana/BHRAM-IL
下载链接
链接失效反馈官方服务:
资源简介:
BHRAM-IL是由印度理工学院海得拉巴校区创建的多语言幻觉评估基准数据集,涵盖印地语、古吉拉特语、马拉地语、奥里亚语及英语五种语言,包含36,047条精心构建的问题。该数据集覆盖事实性、数值计算、推理和语言学等九大任务类别,数据来源于维基百科、现有数学与推理资源及人工筛选的语义无效问题,通过大语言模型辅助生成与翻译流程实现多语言并行化。其核心应用在于系统评估大语言模型在印度语言中的幻觉现象,旨在解决低资源语言环境下模型输出可靠性不足的问题,为多语言幻觉检测与缓解研究提供标准化评估框架。
BHRAM-IL is a multilingual hallucination evaluation benchmark dataset developed by the Indian Institute of Technology Hyderabad. It covers five languages including Hindi, Gujarati, Marathi, Odia and English, and contains 36,047 carefully constructed questions. The dataset encompasses nine task categories such as factual verification, numerical computation, reasoning and linguistics-related tasks. Its data sources include Wikipedia, existing mathematical and reasoning resources, and manually screened semantically invalid questions, and multilingual parallelization is realized through a workflow assisted by large language models for data generation and translation. Its core application lies in systematically evaluating the hallucination phenomena of large language models in Indian languages, aiming to address the insufficient reliability of model outputs in low-resource language environments, and providing a standardized evaluation framework for multilingual hallucination detection and mitigation research.
提供机构:
印度理工学院海得拉巴校区
创建时间:
2025-12-02
原始信息汇总
BHRAM-IL 数据集概述
数据集名称
BHRAM-IL: A Benchmark for Hallucination Recognition and Assessment in Multiple Indian Languages
核心目的
为多种印度语言提供一个用于幻觉识别与评估的基准,以研究大型语言模型在多语言应用中产生的看似合理但错误或误导性的输出(即幻觉)。
覆盖语言
涵盖印地语、古吉拉特语、马拉地语、奥里亚语以及英语。
数据规模与构成
- 总问题数量:36,047个经过筛选的问题。
- 基准评估子集:10,265个问题(用于模型评估)。
- 问题类别:涵盖九个类别,涉及事实性、数值、推理和语言任务。
评估内容
基于基准子集评估了14个最先进的多语言大型语言模型,分析跨语言和跨事实的幻觉现象,具体维度包括:
- 不同语言
- 不同模型
- 不同模型规模
- 不同问题类别
- 不同领域
评估指标
使用针对特定类别设计的指标,并将得分归一化到(0,1)范围。
- 主要得分:在所有类别和模型上聚合后得分为0.23。
- 语言校正模糊得分:得分为0.385。
数据集结构
数据集文件目录包含以下部分:
dataset:包含10K(基准评估版)和40K(完整版)版本的数据集。collect:数据收集脚本。run:在基准上生成模型响应的代码。evaluate:针对特定类别的评估代码。output:大型语言模型产生的响应及评估后的响应结果。
相关论文与资源
- 完整论文被“第一届BHASHA研讨会”接收,该研讨会隶属于IJCNLP-AACL 2025。
- 数据集同时发布于HuggingFace:https://huggingface.co/datasets/sambhashana/BHRAM-IL/。
搜集汇总
数据集介绍

构建方式
在构建BHRAM-IL数据集时,研究团队采用了多阶段、多策略的混合方法,以确保数据的多样性和高质量。首先,针对事实性类别(如GenFact、IndFact和True/False),团队利用维基百科作为知识源,通过大型语言模型辅助生成问题,并辅以严格的过滤机制,剔除模糊或答案不唯一的问题。对于时序排序(Chrono)类别,则基于维基数据中的事件与日期,采用规则化方法构建。数学与推理问题主要从现有高质量资源中精选并适配。语义错误(SemInc)类别则通过高级LLM生成并结合人工筛选,确保问题的无效性符合预设标准。命名实体识别(NER)和词序排序(WO)分别从现有语料库中提取与对齐。所有非NER类别均通过高级翻译模型实现英语到四种印度语言(印地语、古吉拉特语、马拉地语、奥里亚语)的平行翻译,并进行了分层抽样的人工审核,以保障语义忠实度与答案一致性。
特点
BHRAM-IL数据集的核心特点体现在其广泛的语言覆盖与精细的任务设计上。该数据集涵盖五种语言,包括英语及四种资源相对匮乏的印度语言,填补了多语言幻觉评估领域的空白。其内容跨越九个任务类别,覆盖事实性、数值计算、推理与语言能力等多个维度,能够全面捕捉模型在不同类型任务中的幻觉表现。数据集特别区分了语言幻觉与事实性幻觉两种类型,为深入分析模型错误模式提供了结构化框架。此外,数据集的构建注重平行性,除NER外所有类别均实现了跨语言对齐,便于进行跨语言性能比较。数据规模达到36,047条问题,其中10,265条已用于基准测试,为大规模评估提供了充足资源。
使用方法
BHRAM-IL数据集主要用于评估多语言大语言模型在印度语言环境下的幻觉倾向。研究人员可通过该数据集系统性地测量模型在语言幻觉(输出语言与输入不符)和事实性幻觉(输出内容事实错误)两方面的表现。使用时可针对不同任务类别采用相应的评估指标,如精确匹配(Exact Match)、F1分数或肯德尔τ系数。数据集支持两种提示策略:英语提示和母语提示,便于研究提示语言对模型性能的影响。用户可以从GitHub或HuggingFace平台获取数据集及配套评估代码,按照提供的提示模板和规范化流程对模型进行测试,从而量化模型的幻觉率,分析其在不同语言、任务类别和知识领域中的表现差异,为模型改进与幻觉缓解策略的开发提供实证依据。
背景与挑战
背景概述
随着大型语言模型在多语言应用中的广泛部署,其生成看似合理但实则错误或误导性输出的幻觉问题日益凸显。尽管针对英语的幻觉检测研究已较为深入,但资源相对匮乏的印度语言领域仍存在显著空白。在此背景下,比拉尼科技学院海得拉巴校区的研究团队于近期推出了BHRAM-IL基准数据集。该数据集旨在系统评估印地语、古吉拉特语、马拉地语、奥里亚语及英语中的幻觉现象,覆盖事实性、数值、推理及语言学等九大任务类别,共计包含超过三万六千条精心构建的问题。BHRAM-IL的创立填补了多语言幻觉评估框架的关键缺口,为深入理解模型在复杂语言环境下的可靠性提供了首个系统性工具,对推动印度语言自然语言处理技术的可信发展具有奠基性意义。
当前挑战
BHRAM-IL数据集致力于解决多语言大型语言模型在印度语言中产生的幻觉识别与评估这一核心领域问题。其面临的首要挑战在于如何精准捕捉并分类语言幻觉与事实性幻觉,尤其是在形态丰富、句法多样且数字资源有限的印度语言中构建可靠的评估标准。在数据集构建过程中,研究者遭遇了多重困难:一是需要为多种印度语言创建高质量、语义对齐的平行语料,同时克服机器翻译可能带来的语义漂移和文化偏差;二是需设计涵盖广泛知识领域与任务类型的多样化问题,并确保其在不同语言间保持评估一致性;三是需在资源受限条件下,对大规模生成内容进行有效的人工审核与质量把控,以保障数据集的准确性与代表性。
常用场景
经典使用场景
在自然语言处理领域,多语言大模型在印度语言环境下的可靠性评估是一个关键挑战。BHRAM-IL数据集通过涵盖印地语、古吉拉特语、马拉地语、奥里亚语及英语的九大任务类别,为研究者提供了系统评估模型幻觉现象的基准工具。其经典使用场景在于对14种前沿多语言大模型进行跨语言、跨规模、跨领域的幻觉模式分析,通过语言幻觉与事实幻觉的双重分类,揭示模型在低资源语言环境下的知识一致性与输出稳定性。
解决学术问题
该数据集有效解决了印度语言在幻觉检测研究领域的空白问题。传统基准如TruthfulQA、HaluEval等主要面向高资源语言,缺乏对形态丰富、数字资源有限的印度语言的系统评估框架。BHRAM-IL通过构建涵盖事实性、数值计算、推理能力及语言任务的平行语料,建立了首个针对印度语言的幻觉评估体系,使研究者能够量化分析模型在跨语言迁移中的知识失真现象,为多语言对齐研究提供了可复现的实证基础。
衍生相关工作
基于该数据集的评估框架,衍生出多项针对印度语言模型优化的研究方向。部分研究聚焦于通过BHRAM-IL的领域分类体系,开发针对技术术语、历史事件等特定知识领域的幻觉缓解算法;另有工作利用其平行语料特性,探索跨语言检索增强生成技术在低资源语言中的应用效果。此外,该数据集与PARIKSHA、AI4Bharat等印度语言评估套件形成互补生态,共同推动了Indic-LLMs在事实性对齐与多语言鲁棒性方面的迭代发展。
以上内容由遇见数据集搜集并总结生成



