five

HalOmi

收藏
arXiv2023-12-06 更新2024-06-21 收录
下载链接:
https://github.com/facebookresearch/stopes/tree/main/demo/halomi
下载链接
链接失效反馈
官方服务:
资源简介:
HalOmi是一个手动标注的多语言机器翻译幻觉和遗漏检测基准数据集,由FAIR, Meta创建。该数据集涵盖18个翻译方向,包括不同资源水平和脚本,旨在解决机器翻译中的幻觉和遗漏问题。数据集通过严格的标注指南进行手动标注,包含细粒度的句子和词级标注。HalOmi的发布为可靠和可访问的研究提供了基础,以检测和分析翻译病理,并理解其原因。

HalOmi is a manually annotated multilingual machine translation hallucination and omission detection benchmark dataset created by FAIR, Meta. It covers 18 translation directions spanning various resource levels and writing scripts, aiming to address the issues of hallucinations and omissions in machine translation. The dataset is manually annotated in accordance with strict annotation guidelines and includes fine-grained sentence-level and word-level annotations. The release of HalOmi provides a reliable and accessible research foundation for detecting and analyzing translation pathologies, as well as understanding their underlying causes.
提供机构:
FAIR, Meta
创建时间:
2023-05-19
搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译质量评估领域,构建具有精细标注的幻觉与遗漏检测数据集面临稀缺性挑战。HalOmi数据集采用系统性构建流程,首先基于NLLB-200多语言模型,选取涵盖高资源、低资源及零样本场景的18个翻译方向。数据采集融合领域内FLORES-200开发集与领域外维基百科讨论页等异构语料,通过均匀采样、偏置采样及基于多指标筛选的极端病理样本三重策略,构建具有自然生成特性的翻译对集合。专业译者团队依据严格定义的幻觉与遗漏标注规范,经过资格测试与双重审核机制,最终形成包含句子级与词汇级精细标注的数据集。
特点
HalOmi数据集的核心特征体现在其多维度覆盖与精细标注体系。该数据集突破传统单语对限制,涵盖阿拉伯语、汉语、德语等高低资源语言及西班牙语-约鲁巴语零样本对,系统呈现不同资源水平下的病理分布规律。标注体系创新性地区分完全与部分幻觉、句子与词汇级遗漏,并引入不可理解文本的独立标注维度,为病理分析提供细粒度支撑。数据分布揭示高资源语言对英译方向幻觉率更高,而低资源语言对呈现相反趋势,为零样本翻译研究提供实证基础。
使用方法
该数据集支持机器翻译病理检测的多层次研究范式。在句子级任务中,研究者可基于序列对数概率、ALTI贡献度分析等内部方法,或COMET-QE、LaBSE等外部嵌入模型,开展幻觉检测、遗漏检测及综合病理检测的三类任务评估。词汇级任务支持通过分词对齐与特征融合策略,实现幻觉词与遗漏源的定位分析。使用时可结合跨语言编码器进行特征提取,或采用逻辑回归等模型集成多检测指标,特别需注意高低资源场景下内部方法与外部方法的性能差异,以及注意力机制在质量评估中的局限性验证。
背景与挑战
背景概述
随着神经机器翻译系统整体质量达到令人满意的水平,缓解那些罕见但严重损害用户信任的翻译病理现象变得至关重要。HalOmi数据集由Meta公司的FAIR团队于2023年创建,旨在应对机器翻译中幻觉(生成与输入无关信息)和遗漏(未包含输入部分信息)这两类灾难性错误。该数据集覆盖18种翻译方向,涵盖高资源与低资源语言及不同文字体系,提供句子级和词级精细标注。其核心研究问题在于为多语言环境下的病理检测提供首个大规模人工标注基准,推动翻译可靠性研究,对机器翻译质量评估与错误分析领域产生深远影响。
当前挑战
HalOmi数据集致力于解决机器翻译中幻觉与遗漏检测的领域挑战,其核心在于如何准确识别并区分这两类语义级错误,而非传统翻译错误。构建过程中的挑战主要体现在多语言标注的复杂性:需为不同资源水平及文字体系的18种语言方向制定统一且精确的标注指南,并招募专业译者通过严格资格测试以确保标注一致性。此外,从先进NLLB-200模型中自然生成病理样本而非人工扰动数据亦具难度,需设计多步骤策略筛选潜在错误翻译,以保持数据多样性与真实性。
常用场景
经典使用场景
在机器翻译质量评估领域,HalOmi数据集为幻觉与遗漏检测提供了关键基准。该数据集通过人工标注覆盖了18种翻译方向,包含句子级与词级的精细标注,为研究者提供了评估翻译模型病理现象的标准化工具。其经典使用场景在于系统性地评测各类检测方法在多语言环境下的性能,尤其在低资源语言对上,内部方法与外部方法的差异显著,这为优化翻译质量估计模型提供了实证基础。
解决学术问题
HalOmi数据集有效解决了机器翻译中幻觉与遗漏现象缺乏标准化评估数据的学术难题。以往研究受限于单一语言对或合成数据,难以得出普适结论;该数据集通过自然生成的翻译与专业标注,首次实现了跨资源层级与脚本的大规模病理分析。其意义在于揭示了检测方法在不同语言环境下的稳定性差异,例如内部方法在低资源场景中表现更优,而注意力机制在质量判断中表现脆弱,这些发现推动了翻译病理学研究的可靠性与可重复性。
衍生相关工作
基于HalOmi数据集,多项经典研究工作得以衍生与发展。例如,研究者利用该数据集验证了序列对数概率在幻觉检测中的稳健性,并提出了改进的ALTI与ALTIT等内部贡献度方法。同时,该数据集催生了针对词级病理检测的新任务,如通过对比对数概率与贡献度特征的组合模型提升检测精度。这些工作不仅深化了对翻译病理机制的理解,也为后续多语言质量估计模型的创新提供了数据基础与评估框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作