HalloMTBench

Name: HalloMTBench
Creator: 天津大学, 阿里巴巴国际数字商业
Published: 2025-10-28 13:17:18
License: 暂无描述

arXiv2025-10-28 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/HPLT/

下载链接

链接失效反馈

官方服务：

资源简介：

HalloMTBench是一个多语言、人工验证的基准数据集，旨在挑战和诊断现代大型语言模型（LLMs）的翻译幻觉。该数据集包含5,435个高质量的翻译实例，涵盖了11个从英语到其他语言的翻译方向。数据集的创建过程包括使用四种前沿LLMs生成候选翻译，通过集成LLM法官方法进行过滤，并最终由专家进行验证。该数据集可用于评估LLMs在不同语言对上的翻译能力，并揭示模型在翻译幻觉方面的弱点。

提供机构：

天津大学, 阿里巴巴国际数字商业

创建时间：

2025-10-28

搜集汇总

数据集介绍

构建方式

在机器翻译领域，大语言模型虽展现卓越潜力，却常面临幻觉问题，即生成与源文本不符或无意义的输出。为系统诊断此类问题，HalloMTBench采用严谨的四阶段构建流程：首先利用四种前沿大语言模型对来自WMT24和HPLT语料的407万句对进行零样本翻译生成；随后通过集成LLM法官投票机制筛选潜在幻觉实例，该机制与人工标注的一致性高达93.68%至100%；再经由五位专业语言学家依据细粒度分类体系进行人工验证；最终通过持续质量控制循环确保5,435个高质量实例的标注可靠性。

特点

该数据集的核心特点体现在其多维度的诊断能力上。其创新性分类体系将幻觉划分为指令脱离与源文脱离两大范畴，涵盖未翻译内容、目标语言错误、外部信息添加及重复生成四类具体模式。语言覆盖层面，数据集囊括英语至阿拉伯语、日语等11个高资源语言方向，并揭示显著的跨语言差异——葡萄牙语方向幻觉实例达1025例，而中文方向仅51例。模型行为分析显示，不同模型呈现独特幻觉指纹，例如Qwen3-Max倾向于外部信息添加，GPT-4o-mini则易出现目标语言错误，这种异质性为模型脆弱性研究提供了丰富样本。

使用方法

作为诊断性评估工具，该数据集支持零样本翻译场景下的系统化测试。使用者可通过标准化JSON格式获取源文本、幻觉译文、语言对及分类标签等结构化字段。评估时需采用指定提示模板要求模型完成翻译任务，并通过LLM法官集成系统或人工比对进行幻觉检测。基准测试可揭示模型对文本长度的U形敏感性、强化学习导致的语码混合加剧现象，以及基于语言亲缘关系的混淆模式，例如罗曼语族间的相互误判、日语因汉字书写导致的汉语输出偏好等深层规律。

背景与挑战

背景概述

随着大语言模型在机器翻译领域的广泛应用，其生成内容与源文本偏离的幻觉现象成为制约技术落地的核心障碍。2025年由天津大学与阿里巴巴国际数字商业集团联合发布的HalloMTBench应运而生，该数据集通过构建指令脱离与源文脱离的双维度分类体系，系统揭示了多语言大模型在翻译任务中的隐性缺陷。基于WMT24与HPLT语料构建的11个英译方向、5,435条人工验证样本，为评估前沿模型的翻译可靠性提供了精准度量基准，推动了可信机器翻译研究范式的演进。

当前挑战

该数据集致力于解决多语言大模型翻译幻觉的精准诊断难题，其核心挑战在于突破传统评测基准的局限性：现有基准因模型迭代迅速而失效，导致先进模型在传统测试中呈现虚假的零幻觉率；构建过程中需克服多语言幻觉模式捕获的复杂性，通过四阶段标注流程整合前沿模型生成、集成LLM法官筛选与专家验证，确保幻觉样本的多样性与标注一致性，同时需平衡语言对间的样本分布差异以规避评估偏差。

常用场景

经典使用场景

在机器翻译质量评估领域，HalloMTBench作为诊断性基准数据集，主要用于系统性地检测和分析大型语言模型在翻译任务中产生的幻觉现象。该数据集通过精心设计的四阶段标注流程，构建了包含5,435个高质量幻觉实例的多语言语料库，覆盖11个英语到其他语言的翻译方向。研究人员利用该数据集能够深入探究不同模型在翻译过程中出现的指令脱离和源文脱离等典型幻觉模式，为理解模型失效机制提供了标准化测试环境。

实际应用

在工业应用层面，HalloMTBench为商业翻译系统的质量监控和优化提供了重要工具。科技公司可利用该数据集构建自动化的幻觉检测管道，实时识别翻译输出中的异常模式。特别是在多语言服务场景下，数据集揭示的语言特异性幻觉模式能够指导模型针对不同语言对的差异化优化。此外，该数据集还能辅助开发针对性的后处理模块，有效过滤或修正翻译中的幻觉内容，显著提升实际部署系统中翻译结果的可靠性和实用性。

衍生相关工作

基于HalloMTBench的启发，学术界衍生出多个重要的研究方向。在幻觉检测方法方面，研究者开发了基于集成LLM法官的自动化评估框架，实现了与人工标注93.68%-100%的一致性。在模型优化领域，该数据集推动了针对特定幻觉类型的对抗训练技术发展，特别是在处理短文本和长文本翻译的U型幻觉曲线方面取得突破。此外，数据集揭示的跨语言偏见现象催生了面向语言相似性感知的翻译模型架构改进，为构建更稳健的多语言翻译系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集