TRIVIA+ Dataset
收藏TRIVIA+ 数据集概述
数据集简介
TRIVIA+ 是首个基于RAG的幻觉检测基准,其结合了人工验证标签、长上下文(最长可达94K字符,是现有基准的7-33倍)、句子级标注以及受控的标签噪声,满足了幻觉检测评估的所有七项要求。
数据规模
| 划分 | 数量 |
|---|---|
| 训练集 | 2,263 |
| 验证集 | 316 |
| 测试集 | 645 |
| 总计 | 3,224 |
数据来源
数据集汇总了来自多个问答基准的样本:
| 来源 | 数量 | 描述 |
|---|---|---|
| drop | 1,339 (41.5%) | Discrete Reasoning Over Paragraphs |
| msmarco / ms_marco | 763 (23.7%) | Microsoft Machine Reading Comprehension |
| nq | 674 (20.9%) | Natural Questions |
| trivia | 309 (9.6%) | Trivia Question Answering |
| covid | 139 (4.3%) | COVID-19 scientific literature QA |
注意: source 列同时包含 msmarco (521) 和 ms_marco (242) 作为同一原始数据集的变体。
LLM 响应来源
响应由三个大型语言模型生成:
| 模型 | 数量 | 描述 |
|---|---|---|
| mixtral_8x7b | 1,686 (52.3%) | Mixtral 8x7B |
| claude | 1,006 (31.2%) | Claude (SOTA LLM) |
| gemma | 532 (16.5%) | Gemma 7B |
人工标注
每个样本均在句子级别由多名标注者(每个样本最多6名)通过严格的多阶段流程进行标注:
- 两名标注者独立标注每个样本。
- 若存在分歧,则引入另外两名标注者提供标签。
- 若仍无明确多数意见,则收集更多标签。
- 通过多数投票并采用最严格标签的平局决胜规则来聚合标签。
标注者经过两轮培训并由作者审核。使用Dawid-Skene模型移除了低绩效标注者。每个句子获得以下四种标签之一:Supported、Contradicted、Not Mentioned 或 Supplementary。
文件
Triviaplus_all_withnoise_cleaned_20260415.parquet — 包含所有标注的已清洗数据集。
完整列描述、标签聚合逻辑和标签分布请参见 DATA_DETAILS.md。
加载数据集
python import pandas as pd
加载数据集
df = pd.read_parquet("Triviaplus_all_withnoise_cleaned_20260415.parquet")
按划分筛选
train = df[df[split] == train] valid = df[df[split] == valid] test = df[df[split] == test]
访问句子级标签
for idx, row in df.head(3).iterrows(): print(f"Question: {row[question][:50]}...") print(f"Answer: {row[answer][:50]}...") print(f"Sentences: {row[answer_sentence_list]}") print(f"Labels: {row[sentence_level_majority_vote]}") print(f"Response label: {row[response_level_label_binary]}") print()
验证
运行标签一致性检查: bash python verify_label_consistency.py Triviaplus_all_withnoise_cleaned_20260415.parquet
许可证
MIT




