Poly-FEVER
收藏arXiv2025-03-19 更新2025-03-25 收录
下载链接:
https://huggingface.co/datasets/HanzhiZhang/Poly-FEVER
下载链接
链接失效反馈官方服务:
资源简介:
Poly-FEVER是一个大规模的多语言事实验证基准数据集,由美国北德克萨斯大学的研究团队创建。该数据集包含11种语言的77,973条标注事实主张,来源于FEVER、Climate-FEVER和SciFact。Poly-FEVER旨在评估大型语言模型中虚假信息的检测,特别关注跨语言的一致性。数据集覆盖了艺术、音乐、科学、生物学和 history 等多个主题,支持跨语言的事实验证研究,推动了对大型语言模型中虚假信息模式的深入理解。
Poly-FEVER is a large-scale multilingual fact verification benchmark dataset created by a research team from the University of North Texas, USA. This dataset contains 77,973 labeled factual claims across 11 languages, sourced from FEVER, Climate-FEVER, and SciFact. Poly-FEVER aims to evaluate misinformation detection in large language models, with particular focus on cross-lingual consistency. The dataset covers multiple topics including art, music, science, biology, and history, supporting cross-lingual fact verification research and advancing in-depth understanding of misinformation patterns in large language models.
提供机构:
美国北德克萨斯大学
创建时间:
2025-03-19
原始信息汇总
Poly-FEVER数据集概述
数据集基本信息
- 名称: Poly-FEVER
- 语言: 英语(en)、中文(zh)、印地语(hi)、阿拉伯语(ar)、孟加拉语(bn)、日语(ja)、韩语(ko)、泰米尔语(ta)、泰语(th)、格鲁吉亚语(ka)、阿姆哈拉语(am)
- 数据规模: 10K<n<100K
- 任务类型: 文本分类
数据集描述
Poly-FEVER是一个多语言事实验证基准数据集,旨在评估大型语言模型(LLMs)中的幻觉检测能力。该数据集通过将声明翻译成11种语言,扩展了三个广泛使用的事实核查数据集:FEVER、Climate-FEVER和SciFact。
关键特征
- 包含77,973个事实声明
- 二元标签(SUPPORTS或REFUTES)
- 覆盖多个领域:艺术、科学、政治和历史
- 资助方: Google Cloud Translation
数据来源
- FEVER: https://fever.ai/resources.html
- CLIMATE-FEVER: https://www.sustainablefinance.uzh.ch/en/research/climate-fever.html
- SciFact: https://huggingface.co/datasets/allenai/scifact
相关论文
- 论文链接: https://huggingface.co/papers/2503.16541
数据集创建信息
原始数据集
- FEVER
- Climate-FEVER
- SciFact
注意事项
- 用户应注意数据集可能存在的风险、偏见和限制
- 更多详细信息待补充
搜集汇总
数据集介绍

构建方式
Poly-FEVER数据集的构建基于多语言事实核查的需求,通过整合FEVER、Climate-FEVER和SciFact三个英文事实核查数据集,并扩展至11种语言。数据集包含77,973条标注的事实声明,涵盖了从艺术到科学的广泛主题。构建过程中,排除了信息不足的声明,确保每条声明都有明确的真实性标签。多语言声明通过Google Cloud Translation进行翻译,并由多语言专家评估翻译质量,确保语义和文化背景的准确性。
使用方法
Poly-FEVER数据集的使用方法包括多语言事实核查和幻觉检测。研究人员可以利用数据集中的声明和标签,评估大型语言模型在不同语言和主题下的幻觉检测能力。数据集支持多种评估设置,包括原始声明分类、主题感知评估(LDA)和检索增强生成(RAG)评估。通过这些方法,可以系统地分析模型在多语言环境下的表现,并探索幻觉产生的原因及其缓解策略。
背景与挑战
背景概述
Poly-FEVER是由北德克萨斯大学Hanzhi Zhang等人于2025年提出的多语言事实核查基准数据集,旨在解决大语言模型(LLMs)中的幻觉检测问题。该数据集包含11种语言的77,973条标注事实声明,扩展自FEVER、Climate-FEVER和SciFact等权威英文数据集。作为首个系统评估跨语言幻觉模式的大规模基准,Poly-FEVER填补了现有研究主要关注英语等主流语言的空白,为分析ChatGPT、LLaMA等模型在多语言环境下的表现提供了标准化工具。其创新性体现在通过主题分布分析和网络资源可用性研究,揭示了语言特异性偏差对模型准确性的影响,推动了更具包容性的人工智能系统发展。
当前挑战
Poly-FEVER面临的核心挑战体现在两个维度:在领域问题层面,多语言事实核查需克服语言结构差异导致的语义理解偏差,如中文的语序逻辑与阿拉伯语的形态复杂性;同时需解决低资源语言网络数据稀缺造成的知识不对称问题,如阿姆哈拉语和格鲁吉亚语的参考证据不足。在构建过程中,数据集面临多语言对齐的技术挑战,包括通过谷歌云翻译保持77,973条声明在11种语言中的语义一致性,以及处理文化特定概念的本土化表达。此外,标注体系需平衡主观性较强领域(如政治、历史)的事实判定标准,确保跨语言标注质量的可比性。这些挑战使得Poly-FEVER成为评估LLMs跨语言可靠性的重要试金石。
常用场景
经典使用场景
在自然语言处理领域,Poly-FEVER数据集被广泛应用于大型语言模型(LLMs)的多语言事实核查和幻觉检测研究。该数据集通过覆盖11种语言的77,973条标注事实声明,为研究人员提供了一个标准化的评估平台,用以测试模型在不同语言环境下的准确性和可靠性。特别是在多语言环境下,Poly-FEVER能够帮助识别模型在生成内容时的幻觉现象,即模型生成的与已知事实不符或虚构的信息。
解决学术问题
Poly-FEVER解决了多语言事实核查和幻觉检测研究中缺乏大规模、多样化数据集的学术问题。通过整合FEVER、Climate-FEVER和SciFact等数据集,Poly-FEVER不仅扩展了语言的覆盖范围,还提供了跨语言的系统性评估框架。这使得研究人员能够深入分析模型在不同语言和主题上的表现差异,从而揭示语言资源不平衡对模型性能的影响,并为开发更公平、更可靠的AI系统提供了数据支持。
实际应用
在实际应用中,Poly-FEVER数据集被用于提升多语言AI系统的事实核查能力,特别是在医疗、法律和教育等高风险领域。例如,通过评估ChatGPT和LLaMA系列模型在多语言环境下的幻觉频率,开发者可以优化模型的设计和训练策略,减少错误信息的生成。此外,该数据集还被用于研究检索增强生成(RAG)技术在多语言环境中的效果,进一步提升模型在低资源语言中的表现。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)在多语言环境中的广泛应用,幻觉检测成为确保生成内容可靠性的关键挑战。Poly-FEVER数据集作为首个大规模多语言事实验证基准,覆盖11种语言、77,973条标注数据,填补了现有研究在跨语言幻觉模式分析上的空白。当前前沿聚焦于三个方向:一是探索语言资源稀缺性与幻觉频率的关联性,通过自动化网络爬虫揭示训练数据偏差对低资源语言(如阿姆哈拉语、泰米尔语)性能的影响;二是开发语言自适应的提示工程策略,如分类提示(Classification Prompt)和主题感知评估(LDA),以缓解模型在非拉丁语系(如阿拉伯语、格鲁吉亚语)中的结构性幻觉;三是集成检索增强生成(RAG)技术,通过外部知识库校正LLM在科学领域(如Climate-FEVER、SciFact)的事实性输出。该数据集通过系统性评估ChatGPT、LLaMA系列等模型的多语言表现,为构建透明、稳健的生成式AI提供了重要工具,尤其推动了对语言公平性和文化语境敏感性的研究。
相关研究论文
- 1Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models美国北德克萨斯大学 · 2025年
以上内容由遇见数据集搜集并总结生成



