TRIVIA+ Dataset
收藏github2026-05-14 更新2026-05-15 收录
下载链接:
https://github.com/amazon-science/hallucination-benchmark-trivialplus
下载链接
链接失效反馈官方服务:
资源简介:
TRIVIA+数据集是一个用于长上下文幻觉检测的严格基准,包含94K字符的上下文(比现有基准长7-33倍),具有人工验证的句子级标签,并包含用于鲁棒性测试的受控标签噪声。数据集总计3,224个样本,分为训练集(2,263)、验证集(316)和测试集(645),数据来源包括drop、msmarco、nq、trivia和covid等QA基准,LLM响应来自Mixtral 8x7B、Claude和Gemma 7B。每个样本通过多阶段流水线进行句子级人工标注,标签包括支持、矛盾、未提及或补充。数据集文件为triviaplus_dataset.parquet,遵循CC BY-NC-ND 4.0许可证。
The TRIVIA+ dataset is a rigorous benchmark for long-context hallucination detection. It features 94K characters of context, which is 7 to 33 times longer than existing benchmarks, and includes manually verified sentence-level labels as well as controlled label noise for robustness testing. The dataset contains a total of 3,224 samples, split into training (2,263), validation (316), and test sets (645). Its data sources cover QA benchmarks such as drop, MSMARCO, NQ, Trivia, and COVID, while the LLM responses are sourced from Mixtral 8x7B, Claude, and Gemma 7B. Each sample undergoes sentence-level manual annotation via a multi-stage pipeline, with labels including support, contradiction, not mentioned, or supplementary. The dataset file is triviaplus_dataset.parquet, released under the CC BY-NC-ND 4.0 license.
创建时间:
2026-05-12
原始信息汇总
数据集概述
TRIVIA+ Dataset 是一个专门用于幻觉检测的基准数据集,旨在填补现有评估基准的空白。其核心特点如下:
- 上下文长度:94K 字符,比此前基准长 7–33 倍。
- 标注粒度:人类验证的句子级标签。
- 鲁棒性测试:包含受控标签噪声。
- 评估完备性:满足全部 7 项评估标准。
数据集规模与划分
| 划分 | 样本数 |
|---|---|
| 训练集 (Train) | 2,263 |
| 验证集 (Valid) | 316 |
| 测试集 (Test) | 645 |
| 总计 | 3,224 |
数据来源
数据集整合了多个 QA 基准的样本:
| 来源 | 样本数 | 描述 |
|---|---|---|
| drop | 1,339 (41.5%) | 离散段落推理 |
| msmarco / ms_marco | 763 (23.7%) | 微软机器阅读理解 |
| nq | 674 (20.9%) | 自然问题 |
| trivia | 309 (9.6%) | 常识问答 |
| covid | 139 (4.3%) | COVID-19 科学文献问答 |
注意:source 列中 msmarco (521) 和 ms_marco (242) 为同一数据集的变体。
LLM 响应来源
响应用于训练和评估,生成自三个大型语言模型:
| 模型 | 样本数 | 描述 |
|---|---|---|
| mixtral_8x7b | 1,686 (52.3%) | Mixtral 8x7B |
| claude | 1,006 (31.2%) | Claude (SOTA LLM) |
| gemma | 532 (16.5%) | Gemma 7B |
人工标注流程
每个样本在句子级由多名标注员进行标注(最多 6 人),流程如下:
- 两名标注员独立标注每个样本。
- 若有分歧,另两名标注员提供标签。
- 仍未形成明确多数,则再收集两名标注员的意见。
- 通过多数投票聚合标签,采用最严格标签进行平局裁决。
标注员经过两轮培训并由作者审核。低绩效标注员使用 Dawid-Skene 模型移除。每条句子被标记为以下四类之一:
- Supported(支持)
- Contradicted(矛盾)
- Not Mentioned(未提及)
- Supplementary(补充)
数据文件
triviaplus_dataset.parquet:清洗后的数据集,包含所有标注信息。- 更多列描述、标签聚合逻辑及标签分布,请参见 DATA_DETAILS.md。
引用信息
若使用本数据集,请引用以下论文:
bibtex @article{chen2025rethinking, title={Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights}, author={Chen, Wenbo and Padmanabhan, Veena and Giyahchi, Tootiya and Wong, Elaine and Akoglu, Leman}, journal={arXiv preprint arXiv:2605.11330}, year={2025} }
许可协议
本数据集采用 Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License (CC BY-NC-ND 4.0) 授权。完整许可文本见 LICENSE。
搜集汇总
数据集介绍

构建方式
TRIVIA+数据集的构建旨在填补现有幻觉检测基准的缺陷,通过整合来自DROP、MS MARCO、Natural Questions、TriviaQA及COVID科学文献问答等五个来源的样本,汇聚了3224个精心挑选的问答对。其核心在于利用Mixtral 8x7B、Claude和Gemma 7B三种大型语言模型生成回答,并采用多阶段人工标注流程:初始由两名标注者独立为每个句子标注,若出现分歧,则引入额外两名标注者;若仍未达成多数一致,再追加两名标注者,最终通过多数投票并辅以最严格标签平局裁决机制确定句子级别的标签(支持、矛盾、未提及或补充)。标注者经过两轮培训与作者审核,低质量标注者通过Dawid-Skene模型被剔除,确保了标注的严谨性。
使用方法
使用者可通过Python中的Pandas库便捷地加载parquet格式的数据集文件(triviaplus_dataset.parquet),并依据'split'字段将数据划分为训练集、验证集和测试集,以便进行模型训练或评估。每个数据样本包含问题、真实答案、由LLM生成的回答句子列表及其对应的句子级多数投票标签和回答级二元标签。为验证数据一致性,项目提供了专用的脚本(verify_label_consistency.py),运行后即可完成标签检查。至于详细的列定义、标签聚合逻辑及其分布情况,均可参阅随附的DATA_DETAILS.md文档来获取完整说明。
背景与挑战
背景概述
TRIVIA+ 数据集由 Chen 等人于 2025 年创建,旨在系统性地解决大语言模型(LLM)幻觉检测评估中的根本性缺陷。该数据集汇聚了来自 DROP、MS MARCO、Natural Questions 等多个主流问答基准的样本,并由 Mixtral、Claude 和 Gemma 等模型生成回答,覆盖了多样化的知识推理场景。其核心研究问题在于构建一个满足全部七项评估理想标准(desiderata)的严谨基准,填补了现有基准在上下文长度、标注细粒度与鲁棒性方面的显著空白。凭借高达 94K 字符的超长上下文(较先前基准长 7-33 倍)以及人工验证的句子级标签,TRIVIA+ 在幻觉检测领域树立了新的评估标杆,推动了对 LLM 生成内容可信度的深入理解。
当前挑战
TRIVIA+ 数据集面临的核心挑战首先来自领域问题层面:LLM 幻觉检测任务本身高度复杂,现有基准多存在上下文过短、标注粒度粗糙以及缺乏鲁棒性测试等系统性不足,导致评估结果难以反映真实性能。其次是构建过程中的重重困难:数据集需从多个异构问答源中整合高质量样本,确保上下文的长度与信息密度达到前所未有的水平;人工标注环节采用了最多六人的多轮投票流程与 Dawid-Skene 模型筛选低质量标注者,以保障句子级四分类标签的准确性,但这一过程耗时费力且易引入主观偏差;还需在严格控制标注噪声的同时设计鲁棒性测试,维护数据集的可靠性与可重复性。
常用场景
经典使用场景
TRIVIA+ Dataset最经典的使用场景是作为大型语言模型(LLM)幻觉检测的标准化评估基准。该数据集通过提供长达94K字符的上下文(是此前基准的7-33倍),并辅以人工验证的句子级标签,专为检测模型生成内容中与事实不符的幻觉现象而设计。在学术研究中,研究者常利用该数据集的多源问答框架(如DROP、MS MARCO、Natural Questions等)及多模型响应(Mixtral、Claude、Gemma)来系统性地衡量检测算法的鲁棒性,尤其适用于需要长文本理解与细粒度幻觉标注的复杂场景。
解决学术问题
该数据集着力解决当前LLM幻觉检测领域评估基准存在的碎片化与不严谨问题。它填补了此前基准在上下文长度、标签分辨率及噪声控制等方面的空白,满足评估所需的全部七项理想属性。通过引入受控标签噪声、多轮投票标注流程及严格的一致性过滤,TRIVIA+为学术界提供了更可靠的实验平台,使研究者能够更精准地比较不同检测方法的性能,推动了对幻觉机制的理论理解,并为构建更可信的AI系统奠定了方法论基础。
实际应用
在实际应用中,TRIVIA+ Dataset被广泛部署于企业级LLM部署前的安全性审核环节。它帮助开发团队在客服自动回复、医疗信息摘要、法律文档生成等高风险领域内,有效识别并过滤模型输出中的事实性错误。例如,在基于检索增强生成(RAG)的系统中,该数据集可用于验证检索信息与生成内容的一致性,降低因幻觉导致的信息误导风险,从而提升用户对生成式AI产品的信任度与合规性。
数据集最近研究
最新研究方向
在大语言模型幻觉检测这一备受瞩目的前沿领域中,TRIVIA+ 数据集的问世恰逢其时。随着以 ChatGPT、Gemini 为代表的大模型在信息检索与问答场景中的广泛部署,模型输出的事实一致性或“幻觉”问题已成为制约其可靠落地的核心瓶颈。TRIVIA+ 突破了既有基准在上下文长度与标注精细度上的局限,构建了包含长达 9.4 万字符上下文、覆盖多源问答数据与多模型响应的复杂评测框架。其引入的受控标签噪声与多轮人工审核机制,不仅为细粒度幻觉检测提供了更为严苛的测试环境,也深刻揭示了当前评估体系在鲁棒性和区分度上的不足。这一工作紧密关联着近期关于 RAG 系统幻觉边界与模型忠实性评估的学术热潮,为推动更精准的幻觉检测算法与更可信的大模型落地提供了关键的数据基座与评价标尺。
以上内容由遇见数据集搜集并总结生成



