Poly-FEVER|事实验证数据集|虚假信息检测数据集

arXiv2025-03-19 更新2025-03-25 收录

事实验证

虚假信息检测

下载链接：

https://huggingface.co/datasets/HanzhiZhang/Poly-FEVER

下载链接

链接失效反馈

资源简介：

Poly-FEVER是一个大规模的多语言事实验证基准数据集，由美国北德克萨斯大学的研究团队创建。该数据集包含11种语言的77,973条标注事实主张，来源于FEVER、Climate-FEVER和SciFact。Poly-FEVER旨在评估大型语言模型中虚假信息的检测，特别关注跨语言的一致性。数据集覆盖了艺术、音乐、科学、生物学和 history 等多个主题，支持跨语言的事实验证研究，推动了对大型语言模型中虚假信息模式的深入理解。

提供机构：

美国北德克萨斯大学

创建时间：

2025-03-19

原始信息汇总

Poly-FEVER数据集概述

数据集基本信息

名称: Poly-FEVER
语言: 英语(en)、中文(zh)、印地语(hi)、阿拉伯语(ar)、孟加拉语(bn)、日语(ja)、韩语(ko)、泰米尔语(ta)、泰语(th)、格鲁吉亚语(ka)、阿姆哈拉语(am)
数据规模: 10K<n<100K
任务类型: 文本分类

数据集描述

Poly-FEVER是一个多语言事实验证基准数据集，旨在评估大型语言模型(LLMs)中的幻觉检测能力。该数据集通过将声明翻译成11种语言，扩展了三个广泛使用的事实核查数据集：FEVER、Climate-FEVER和SciFact。

关键特征

包含77,973个事实声明
二元标签(SUPPORTS或REFUTES)
覆盖多个领域：艺术、科学、政治和历史
资助方: Google Cloud Translation

数据来源

FEVER: https://fever.ai/resources.html
CLIMATE-FEVER: https://www.sustainablefinance.uzh.ch/en/research/climate-fever.html
SciFact: https://huggingface.co/datasets/allenai/scifact

数据集创建信息

原始数据集

FEVER
Climate-FEVER
SciFact

注意事项

用户应注意数据集可能存在的风险、偏见和限制
更多详细信息待补充

AI搜集汇总

数据集介绍

构建方式

Poly-FEVER数据集的构建基于多语言事实核查的需求，通过整合FEVER、Climate-FEVER和SciFact三个英文事实核查数据集，并扩展至11种语言。数据集包含77,973条标注的事实声明，涵盖了从艺术到科学的广泛主题。构建过程中，排除了信息不足的声明，确保每条声明都有明确的真实性标签。多语言声明通过Google Cloud Translation进行翻译，并由多语言专家评估翻译质量，确保语义和文化背景的准确性。

使用方法

Poly-FEVER数据集的使用方法包括多语言事实核查和幻觉检测。研究人员可以利用数据集中的声明和标签，评估大型语言模型在不同语言和主题下的幻觉检测能力。数据集支持多种评估设置，包括原始声明分类、主题感知评估（LDA）和检索增强生成（RAG）评估。通过这些方法，可以系统地分析模型在多语言环境下的表现，并探索幻觉产生的原因及其缓解策略。

背景与挑战

背景概述

Poly-FEVER是由北德克萨斯大学Hanzhi Zhang等人于2025年提出的多语言事实核查基准数据集，旨在解决大语言模型（LLMs）中的幻觉检测问题。该数据集包含11种语言的77,973条标注事实声明，扩展自FEVER、Climate-FEVER和SciFact等权威英文数据集。作为首个系统评估跨语言幻觉模式的大规模基准，Poly-FEVER填补了现有研究主要关注英语等主流语言的空白，为分析ChatGPT、LLaMA等模型在多语言环境下的表现提供了标准化工具。其创新性体现在通过主题分布分析和网络资源可用性研究，揭示了语言特异性偏差对模型准确性的影响，推动了更具包容性的人工智能系统发展。

当前挑战

Poly-FEVER面临的核心挑战体现在两个维度：在领域问题层面，多语言事实核查需克服语言结构差异导致的语义理解偏差，如中文的语序逻辑与阿拉伯语的形态复杂性；同时需解决低资源语言网络数据稀缺造成的知识不对称问题，如阿姆哈拉语和格鲁吉亚语的参考证据不足。在构建过程中，数据集面临多语言对齐的技术挑战，包括通过谷歌云翻译保持77,973条声明在11种语言中的语义一致性，以及处理文化特定概念的本土化表达。此外，标注体系需平衡主观性较强领域（如政治、历史）的事实判定标准，确保跨语言标注质量的可比性。这些挑战使得Poly-FEVER成为评估LLMs跨语言可靠性的重要试金石。

常用场景

经典使用场景

在自然语言处理领域，Poly-FEVER数据集被广泛应用于大型语言模型（LLMs）的多语言事实核查和幻觉检测研究。该数据集通过覆盖11种语言的77,973条标注事实声明，为研究人员提供了一个标准化的评估平台，用以测试模型在不同语言环境下的准确性和可靠性。特别是在多语言环境下，Poly-FEVER能够帮助识别模型在生成内容时的幻觉现象，即模型生成的与已知事实不符或虚构的信息。

解决学术问题

Poly-FEVER解决了多语言事实核查和幻觉检测研究中缺乏大规模、多样化数据集的学术问题。通过整合FEVER、Climate-FEVER和SciFact等数据集，Poly-FEVER不仅扩展了语言的覆盖范围，还提供了跨语言的系统性评估框架。这使得研究人员能够深入分析模型在不同语言和主题上的表现差异，从而揭示语言资源不平衡对模型性能的影响，并为开发更公平、更可靠的AI系统提供了数据支持。

实际应用

在实际应用中，Poly-FEVER数据集被用于提升多语言AI系统的事实核查能力，特别是在医疗、法律和教育等高风险领域。例如，通过评估ChatGPT和LLaMA系列模型在多语言环境下的幻觉频率，开发者可以优化模型的设计和训练策略，减少错误信息的生成。此外，该数据集还被用于研究检索增强生成（RAG）技术在多语言环境中的效果，进一步提升模型在低资源语言中的表现。

数据集最近研究