Poly-FEVER|事实验证数据集|虚假信息检测数据集
收藏Poly-FEVER数据集概述
数据集基本信息
- 名称: Poly-FEVER
- 语言: 英语(en)、中文(zh)、印地语(hi)、阿拉伯语(ar)、孟加拉语(bn)、日语(ja)、韩语(ko)、泰米尔语(ta)、泰语(th)、格鲁吉亚语(ka)、阿姆哈拉语(am)
- 数据规模: 10K<n<100K
- 任务类型: 文本分类
数据集描述
Poly-FEVER是一个多语言事实验证基准数据集,旨在评估大型语言模型(LLMs)中的幻觉检测能力。该数据集通过将声明翻译成11种语言,扩展了三个广泛使用的事实核查数据集:FEVER、Climate-FEVER和SciFact。
关键特征
- 包含77,973个事实声明
- 二元标签(SUPPORTS或REFUTES)
- 覆盖多个领域:艺术、科学、政治和历史
- 资助方: Google Cloud Translation
数据来源
- FEVER: https://fever.ai/resources.html
- CLIMATE-FEVER: https://www.sustainablefinance.uzh.ch/en/research/climate-fever.html
- SciFact: https://huggingface.co/datasets/allenai/scifact
相关论文
- 论文链接: https://huggingface.co/papers/2503.16541
数据集创建信息
原始数据集
- FEVER
- Climate-FEVER
- SciFact
注意事项
- 用户应注意数据集可能存在的风险、偏见和限制
- 更多详细信息待补充

- 1Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models美国北德克萨斯大学 · 2025年
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录