five

Poly-FEVER|事实验证数据集|虚假信息检测数据集

收藏
arXiv2025-03-19 更新2025-03-25 收录
事实验证
虚假信息检测
下载链接:
https://huggingface.co/datasets/HanzhiZhang/Poly-FEVER
下载链接
链接失效反馈
资源简介:
Poly-FEVER是一个大规模的多语言事实验证基准数据集,由美国北德克萨斯大学的研究团队创建。该数据集包含11种语言的77,973条标注事实主张,来源于FEVER、Climate-FEVER和SciFact。Poly-FEVER旨在评估大型语言模型中虚假信息的检测,特别关注跨语言的一致性。数据集覆盖了艺术、音乐、科学、生物学和 history 等多个主题,支持跨语言的事实验证研究,推动了对大型语言模型中虚假信息模式的深入理解。
提供机构:
美国北德克萨斯大学
创建时间:
2025-03-19
原始信息汇总

Poly-FEVER数据集概述

数据集基本信息

  • 名称: Poly-FEVER
  • 语言: 英语(en)、中文(zh)、印地语(hi)、阿拉伯语(ar)、孟加拉语(bn)、日语(ja)、韩语(ko)、泰米尔语(ta)、泰语(th)、格鲁吉亚语(ka)、阿姆哈拉语(am)
  • 数据规模: 10K<n<100K
  • 任务类型: 文本分类

数据集描述

Poly-FEVER是一个多语言事实验证基准数据集,旨在评估大型语言模型(LLMs)中的幻觉检测能力。该数据集通过将声明翻译成11种语言,扩展了三个广泛使用的事实核查数据集:FEVER、Climate-FEVER和SciFact。

关键特征

  • 包含77,973个事实声明
  • 二元标签(SUPPORTS或REFUTES)
  • 覆盖多个领域:艺术、科学、政治和历史
  • 资助方: Google Cloud Translation

数据来源

  • FEVER: https://fever.ai/resources.html
  • CLIMATE-FEVER: https://www.sustainablefinance.uzh.ch/en/research/climate-fever.html
  • SciFact: https://huggingface.co/datasets/allenai/scifact

相关论文

  • 论文链接: https://huggingface.co/papers/2503.16541

数据集创建信息

原始数据集

  • FEVER
  • Climate-FEVER
  • SciFact

注意事项

  • 用户应注意数据集可能存在的风险、偏见和限制
  • 更多详细信息待补充
AI搜集汇总
数据集介绍
main_image_url
构建方式
Poly-FEVER数据集的构建基于多语言事实核查的需求,通过整合FEVER、Climate-FEVER和SciFact三个英文事实核查数据集,并扩展至11种语言。数据集包含77,973条标注的事实声明,涵盖了从艺术到科学的广泛主题。构建过程中,排除了信息不足的声明,确保每条声明都有明确的真实性标签。多语言声明通过Google Cloud Translation进行翻译,并由多语言专家评估翻译质量,确保语义和文化背景的准确性。
使用方法
Poly-FEVER数据集的使用方法包括多语言事实核查和幻觉检测。研究人员可以利用数据集中的声明和标签,评估大型语言模型在不同语言和主题下的幻觉检测能力。数据集支持多种评估设置,包括原始声明分类、主题感知评估(LDA)和检索增强生成(RAG)评估。通过这些方法,可以系统地分析模型在多语言环境下的表现,并探索幻觉产生的原因及其缓解策略。
背景与挑战
背景概述
Poly-FEVER是由北德克萨斯大学Hanzhi Zhang等人于2025年提出的多语言事实核查基准数据集,旨在解决大语言模型(LLMs)中的幻觉检测问题。该数据集包含11种语言的77,973条标注事实声明,扩展自FEVER、Climate-FEVER和SciFact等权威英文数据集。作为首个系统评估跨语言幻觉模式的大规模基准,Poly-FEVER填补了现有研究主要关注英语等主流语言的空白,为分析ChatGPT、LLaMA等模型在多语言环境下的表现提供了标准化工具。其创新性体现在通过主题分布分析和网络资源可用性研究,揭示了语言特异性偏差对模型准确性的影响,推动了更具包容性的人工智能系统发展。
当前挑战
Poly-FEVER面临的核心挑战体现在两个维度:在领域问题层面,多语言事实核查需克服语言结构差异导致的语义理解偏差,如中文的语序逻辑与阿拉伯语的形态复杂性;同时需解决低资源语言网络数据稀缺造成的知识不对称问题,如阿姆哈拉语和格鲁吉亚语的参考证据不足。在构建过程中,数据集面临多语言对齐的技术挑战,包括通过谷歌云翻译保持77,973条声明在11种语言中的语义一致性,以及处理文化特定概念的本土化表达。此外,标注体系需平衡主观性较强领域(如政治、历史)的事实判定标准,确保跨语言标注质量的可比性。这些挑战使得Poly-FEVER成为评估LLMs跨语言可靠性的重要试金石。
常用场景
经典使用场景
在自然语言处理领域,Poly-FEVER数据集被广泛应用于大型语言模型(LLMs)的多语言事实核查和幻觉检测研究。该数据集通过覆盖11种语言的77,973条标注事实声明,为研究人员提供了一个标准化的评估平台,用以测试模型在不同语言环境下的准确性和可靠性。特别是在多语言环境下,Poly-FEVER能够帮助识别模型在生成内容时的幻觉现象,即模型生成的与已知事实不符或虚构的信息。
解决学术问题
Poly-FEVER解决了多语言事实核查和幻觉检测研究中缺乏大规模、多样化数据集的学术问题。通过整合FEVER、Climate-FEVER和SciFact等数据集,Poly-FEVER不仅扩展了语言的覆盖范围,还提供了跨语言的系统性评估框架。这使得研究人员能够深入分析模型在不同语言和主题上的表现差异,从而揭示语言资源不平衡对模型性能的影响,并为开发更公平、更可靠的AI系统提供了数据支持。
实际应用
在实际应用中,Poly-FEVER数据集被用于提升多语言AI系统的事实核查能力,特别是在医疗、法律和教育等高风险领域。例如,通过评估ChatGPT和LLaMA系列模型在多语言环境下的幻觉频率,开发者可以优化模型的设计和训练策略,减少错误信息的生成。此外,该数据集还被用于研究检索增强生成(RAG)技术在多语言环境中的效果,进一步提升模型在低资源语言中的表现。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)在多语言环境中的广泛应用,幻觉检测成为确保生成内容可靠性的关键挑战。Poly-FEVER数据集作为首个大规模多语言事实验证基准,覆盖11种语言、77,973条标注数据,填补了现有研究在跨语言幻觉模式分析上的空白。当前前沿聚焦于三个方向:一是探索语言资源稀缺性与幻觉频率的关联性,通过自动化网络爬虫揭示训练数据偏差对低资源语言(如阿姆哈拉语、泰米尔语)性能的影响;二是开发语言自适应的提示工程策略,如分类提示(Classification Prompt)和主题感知评估(LDA),以缓解模型在非拉丁语系(如阿拉伯语、格鲁吉亚语)中的结构性幻觉;三是集成检索增强生成(RAG)技术,通过外部知识库校正LLM在科学领域(如Climate-FEVER、SciFact)的事实性输出。该数据集通过系统性评估ChatGPT、LLaMA系列等模型的多语言表现,为构建透明、稳健的生成式AI提供了重要工具,尤其推动了对语言公平性和文化语境敏感性的研究。
相关研究论文
  • 1
    Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models美国北德克萨斯大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录