MFAVA
收藏arXiv2025-02-18 更新2025-02-20 收录
下载链接:
https://github.com/WorldHellow/mHallucinations-LLM
下载链接
链接失效反馈官方服务:
资源简介:
MFAVA数据集是由Würzburg大学CAIDAS实验室创建的,旨在评估大型语言模型在不同语言中产生幻觉的情况。该数据集涵盖了30种语言,包含由LLM生成的提示和对应的维基百科文章作为参考。数据集的构建过程包括将英语FAVA数据集翻译成其他语言,并在此基础上进行人工标注和LLM生成的合成数据。MFAVA数据集的应用领域主要是知识密集型的长篇问答,以解决现实世界中LLM的使用问题。
The MFAVA dataset was created by the CAIDAS Lab at the University of Würzburg, with the objective of evaluating large language models (LLMs) for hallucinatory generation across different languages. This dataset covers 30 languages, and includes prompts generated by LLMs and corresponding Wikipedia articles as reference materials. The construction process of the MFAVA dataset involves translating the English FAVA dataset into other languages, followed by manual annotation and synthetic data generated by LLMs. The primary application areas of the MFAVA dataset are knowledge-intensive long-form question answering, aimed at addressing real-world issues related to LLM deployment and usage.
提供机构:
Würzburg大学计算机辅助翻译与自然语言处理实验室(CAIDAS)
创建时间:
2025-02-18
搜集汇总
数据集介绍

构建方式
MFAVA数据集的构建始于英语幻觉检测数据集FAVA,该数据集由信息检索提示(即问题)和人类标注的幻觉跨度组成。为了创建多语言幻觉检测数据集,研究团队使用了机器翻译将FAVA数据集翻译成30种目标语言,并使用GPT-4在知识密集型长格式问答中引入幻觉,以生成银标准数据集。此外,团队还手动标注了五种高资源语言的金标准数据集,以验证银标准数据集的有效性。最终,MFAVA数据集包括30种语言的幻觉检测模型训练数据和幻觉评估数据。
特点
MFAVA数据集的主要特点包括:(1)多语言覆盖,涵盖30种语言,包括高资源和低资源语言;(2)幻觉检测数据集和评估数据集的构建,包括银标准数据集和金标准数据集;(3)幻觉检测模型训练和评估,包括单语言模型和多语言模型;(4)幻觉率估计协议,基于幻觉检测模型的检测性能和幻觉检测模型在野外的性能估计。
使用方法
MFAVA数据集可用于多种用途,包括:(1)训练多语言幻觉检测模型;(2)评估多语言幻觉检测模型;(3)估计多语言大型语言模型在野外的幻觉率。使用MFAVA数据集时,首先需要根据需要选择合适的幻觉检测模型和数据集(银标准或金标准),然后进行模型训练和评估。最后,可以使用幻觉检测模型的性能估计来估计多语言大型语言模型在野外的幻觉率。
背景与挑战
背景概述
随着大型语言模型(LLMs)在语言理解、推理和生成任务中的广泛应用,其产生非事实或不符合事实的回应(即幻觉)的风险日益凸显。尽管LLMs的多语言能力不断增强,但大部分关于检测和量化LLM幻觉的研究仍然集中在英语上,并且主要关注机器翻译和摘要等任务,这些任务在日常使用中并不常见。为了解决这个问题,MFAVA数据集应运而生,旨在量化LLMs在知识密集型长篇问答中跨语言的幻觉程度。该数据集由Saad Obaid ul Islam等人创建,旨在通过训练一个多语言幻觉检测模型并开展大规模研究,覆盖30种语言和6个开源LLM家族。研究人员首先从一个英语幻觉检测数据集开始,并依靠机器翻译生成其他语言的训练数据。此外,他们还为五个高资源语言手动标注了金标准数据,并通过MFAVA数据集验证了使用银数据来估计其他语言的幻觉率的有效性。最终,他们构建了一个包含30种语言的知识密集型问答数据集,以LLM生成的提示和维基百科文章作为参考。
当前挑战
MFAVA数据集的研究背景和构建过程中面临了多项挑战。首先,在多语言幻觉检测和评估研究中,缺乏覆盖开放式知识寻求任务的多语言幻觉基准,这导致了在现实世界中评估LLMs幻觉率时的困难。其次,创建幻觉检测评估数据集的成本高昂,因此研究人员只能为五个高资源语言收集金标准数据。此外,LLMs在不同语言中的表现存在差异,且与语言的资源丰富程度没有直接关联。最后,研究人员发现LLMs生成的回答长度与其幻觉率之间没有相关性。这些挑战表明,在现实世界中估计LLMs的幻觉率仍然是一个复杂的问题,需要进一步的研究和探索。
常用场景
经典使用场景
MFAVA数据集主要被用于评估大型语言模型(LLMs)在不同语言中的幻觉现象。幻觉是指LLMs生成与客观事实不符或不可靠的信息。该数据集通过构建一个多语言幻觉检测模型,并在30种语言和6个开源LLM家族上进行大规模研究,来量化LLMs在知识密集型长文本问答中的幻觉程度。
解决学术问题
MFAVA数据集解决了LLMs在不同语言中幻觉现象评估的问题。现有的研究主要集中在英语上,并且主要关注机器翻译和摘要任务,而这些任务在实际应用中并不常见。MFAVA数据集通过创建一个知识密集型QA数据集,为30种语言提供了LLM生成的提示和维基百科文章作为参考,从而为评估LLMs在不同语言中的幻觉程度提供了一个有效的工具。
衍生相关工作
MFAVA数据集的发布促进了LLMs幻觉现象评估领域的研究。相关工作包括:1. Mishra等人(2024)提出的FAVA数据集,用于评估LLMs在英语中的幻觉现象;2. Dale等人(2023)提出的Halomi数据集,用于评估LLMs在多语言机器翻译中的幻觉现象;3. Clark等人(2023)提出的Seahorse数据集,用于评估LLMs在多语言摘要任务中的幻觉现象。这些工作为MFAVA数据集的构建和评估提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



