TRIVIA+ Dataset

github2026-04-19 更新2026-04-21 收录

下载链接：

https://github.com/Wenbo11/TriviaPlus

下载链接

链接失效反馈

官方服务：

资源简介：

第一个基于RAG的幻觉检测基准，结合了人工验证标签、长上下文（最长94K字符，比现有基准长7-33倍）、句子级注释和受控标签噪声，满足幻觉检测评估的七个要求。

The first RAG-based hallucination detection benchmark integrating human-validated labels, long contexts (up to 94K characters, 7 to 33 times longer than existing benchmarks), sentence-level annotations, and controlled label noise, meets the seven requirements for hallucination detection evaluation.

创建时间：

2026-04-19

原始信息汇总

TRIVIA+ 数据集概述

数据集简介

TRIVIA+ 是首个基于RAG的幻觉检测基准，其结合了人工验证标签、长上下文（最长可达94K字符，是现有基准的7-33倍）、句子级标注以及受控的标签噪声，满足了幻觉检测评估的所有七项要求。

数据规模

划分	数量
训练集	2,263
验证集	316
测试集	645
总计	3,224

数据来源

数据集汇总了来自多个问答基准的样本：

来源	数量	描述
drop	1,339 (41.5%)	Discrete Reasoning Over Paragraphs
msmarco / ms_marco	763 (23.7%)	Microsoft Machine Reading Comprehension
nq	674 (20.9%)	Natural Questions
trivia	309 (9.6%)	Trivia Question Answering
covid	139 (4.3%)	COVID-19 scientific literature QA

注意： source 列同时包含 msmarco (521) 和 ms_marco (242) 作为同一原始数据集的变体。

LLM 响应来源

响应由三个大型语言模型生成：

模型	数量	描述
mixtral_8x7b	1,686 (52.3%)	Mixtral 8x7B
claude	1,006 (31.2%)	Claude (SOTA LLM)
gemma	532 (16.5%)	Gemma 7B

人工标注

每个样本均在句子级别由多名标注者（每个样本最多6名）通过严格的多阶段流程进行标注：

两名标注者独立标注每个样本。
若存在分歧，则引入另外两名标注者提供标签。
若仍无明确多数意见，则收集更多标签。
通过多数投票并采用最严格标签的平局决胜规则来聚合标签。

标注者经过两轮培训并由作者审核。使用Dawid-Skene模型移除了低绩效标注者。每个句子获得以下四种标签之一：Supported、Contradicted、Not Mentioned 或 Supplementary。

文件

Triviaplus_all_withnoise_cleaned_20260415.parquet — 包含所有标注的已清洗数据集。完整列描述、标签聚合逻辑和标签分布请参见 DATA_DETAILS.md。

加载数据集

python import pandas as pd

加载数据集

df = pd.read_parquet("Triviaplus_all_withnoise_cleaned_20260415.parquet")

按划分筛选

train = df[df[split] == train] valid = df[df[split] == valid] test = df[df[split] == test]

访问句子级标签

for idx, row in df.head(3).iterrows(): print(f"Question: {row[question][:50]}...") print(f"Answer: {row[answer][:50]}...") print(f"Sentences: {row[answer_sentence_list]}") print(f"Labels: {row[sentence_level_majority_vote]}") print(f"Response label: {row[response_level_label_binary]}") print()

验证

运行标签一致性检查： bash python verify_label_consistency.py Triviaplus_all_withnoise_cleaned_20260415.parquet

许可证

MIT

搜集汇总

数据集介绍

构建方式

在构建TRIVIA+数据集的过程中，研究团队采用了多源问答基准的整合策略，从DROP、MS MARCO、Natural Questions、Trivia QA以及COVID-19科学文献问答等五个权威数据源中精心筛选了总计3,224个样本。每个样本的答案均由三种前沿大语言模型——Mixtral 8x7B、Claude和Gemma 7B生成，确保了响应来源的多样性。尤为关键的是，数据集引入了严格的多阶段人工标注流程，通过多达六轮独立标注与多数投票机制，并结合Dawid-Skene模型进行标注者质量过滤，最终在句子粒度上生成了支持、矛盾、未提及或补充四类精细标签，从而构建了一个兼具长上下文与可控标签噪声的高质量幻觉检测基准。

特点

TRIVIA+数据集作为首个满足七项核心需求的检索增强生成幻觉检测基准，其显著特点在于上下文长度的大幅扩展，单个样本可容纳高达94,000字符，远超现有基准7至33倍，为长文档理解任务提供了更贴近现实的评估场景。数据集在标注粒度上实现了句子级别的精细化，每个生成答案的句子均被独立标注，并辅以严格的多投票质量控制，确保了标签的高可靠性。此外，数据集创新性地引入了可控的标签噪声，模拟了真实标注环境中的不确定性，同时其样本来源覆盖了通用知识、科学文献与事实性问答等多个领域，为幻觉检测模型的鲁棒性与泛化能力评估提供了全面而严谨的测试平台。

使用方法

使用TRIVIA+数据集时，研究者可通过Python的pandas库直接加载Parquet格式的数据文件，便捷地按训练、验证和测试划分获取数据子集。数据集中每条记录均包含原始问题、模型生成的答案、分割后的句子列表、句子级别的多数投票标签以及二元化的响应级别标签，便于进行不同粒度的幻觉检测分析。用户可通过迭代数据行，深入访问句子级标注细节，以支撑模型训练与评估。为进一步确保数据质量，数据集提供了标签一致性验证脚本，运行该脚本可自动检查标注逻辑的内在一致性，为后续研究工作的可复现性与可靠性奠定了坚实基础。

背景与挑战

背景概述

在检索增强生成（RAG）技术迅速发展的背景下，模型生成内容中的幻觉问题日益成为自然语言处理领域的关键挑战。TRIVIA+数据集于2024年应运而生，由相关研究团队精心构建，旨在为RAG系统的幻觉检测提供一个全面、可靠的评估基准。该数据集整合了来自DROP、MS MARCO、Natural Questions等多个权威问答基准的样本，并采用三种主流大语言模型生成响应，其核心研究聚焦于如何精准识别和量化生成文本中与给定知识源不一致或无法验证的信息。通过引入长上下文处理能力（最高达94K字符）和句子级的人工验证标注，该数据集显著提升了幻觉检测任务的复杂性和真实性，为评估和改善RAG系统的可信度奠定了坚实基础，对推动可信人工智能的发展具有重要影响力。

当前挑战

TRIVIA+数据集致力于解决RAG系统中幻觉检测的核心挑战，即如何在大规模、多样化的文本生成场景下，准确区分模型输出中的事实性错误、矛盾信息或未提及内容。这一任务面临多重困难：生成响应的语义微妙性使得幻觉边界模糊；长上下文依赖要求模型具备强大的跨句推理与信息整合能力；而不同知识源间的潜在冲突进一步增加了判断复杂度。在构建过程中，研究团队需克服数据整合的异构性，确保来自多个基准的问答对在格式与质量上保持一致。同时，设计并实施严谨的多阶段人工标注流程，以应对句子级标注的主观性与一致性难题，并通过Dawid-Skene模型过滤低质量标注者，从而在控制标注噪声的前提下，获得高可靠性的细粒度标签，这一过程对资源协调与质量控制提出了极高要求。

常用场景

经典使用场景

在检索增强生成（RAG）系统的评估领域，TRIVIA+数据集作为首个结合人类验证标签、长上下文（最高达94K字符）及句子级标注的幻觉检测基准，其经典使用场景聚焦于系统性能的全面评测。研究者利用该数据集对RAG模型生成的答案进行细粒度分析，通过句子级别的支持、矛盾、未提及或补充性标签，精准识别模型在长文档理解中产生的幻觉现象，从而推动幻觉检测技术的标准化与可复现性。

解决学术问题

该数据集有效解决了幻觉检测研究中长期存在的评估瓶颈，如标注粒度粗糙、上下文长度受限及标签噪声控制不足等问题。通过整合多源QA基准数据并引入严格的多阶段人工标注流程，TRIVIA+为学术界提供了高可靠性的评估标准，使得研究者能够系统探究幻觉产生的机制，并开发出更具鲁棒性的检测算法，显著提升了该领域研究的严谨性与可比性。

衍生相关工作

围绕TRIVIA+数据集，已衍生出一系列经典研究工作，包括基于多投票标注机制的噪声过滤算法、长文档幻觉检测的层次化建模框架，以及跨领域幻觉迁移学习模型。这些工作不仅深化了对RAG系统幻觉行为的理论理解，还催生了如动态上下文剪枝、对抗性示例生成等创新技术，进一步推动了幻觉检测与缓解领域的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集