TruthfulQAPro

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/foadnamjoo/TruthfulQAPro

下载链接

链接失效反馈

官方服务：

资源简介：

TruthfulQAPro 是一个基于 TruthfulQA 数据集的特征平衡参考子集，包含固定大小的二选一问题对（300-650 对），并提供了验证指标清单和用于精确复现的规范配对 ID JSON 文件。数据集包含多个子集（300、350、400、450、500、550、595、650 对），每个子集都经过长度四分位数分层洗牌，并按否定/长度间隙/ID 排序。数据集适用于评估大型语言模型（LLM）的基准测试，特别是关于真实性和表面形式捷径的审计任务。数据集基于 TruthfulQA 的多选题结构，并提供了详细的加载和使用说明。

创建时间：

2026-04-03

原始信息汇总

TruthfulQAPro 数据集概述

数据集基本信息

数据集名称: TruthfulQAPro
托管地址: https://huggingface.co/datasets/foadnamjoo/TruthfulQAPro
许可证: Apache License 2.0
语言: 英语
标签: truthfulqa, multiple-choice, evaluation, llm, benchmark
数据集展示名: TruthfulQAPro (feature-balanced subsets)
数据规模: 1K<n<10K

数据集来源与性质

基础数据: 源自 TruthfulQA 的多选行数据，示例与上游相同，仅子集成员资格不同。
核心内容: 从 TruthfulQA 衍生的特征平衡参考子集，包含固定大小的二选一切片（300–650 对）、带有验证指标的清单，以及用于精确复现的规范配对ID JSON文件（种子 42）。
审计配置文件: surface10 — 十个可解释的词汇/风格特征，采用分组交叉验证。

数据集结构与配置

数据集在 Hugging Face Hub 上定义了独立的配置，每个配置对应一个 CSV 文件模式。

可用配置:

manifest: 对应文件 subset_manifest.csv（默认配置）
subset_300: 对应文件 truthfulqaPro_300.csv
subset_350: 对应文件 truthfulqaPro_350.csv
subset_400: 对应文件 truthfulqaPro_400.csv
subset_450: 对应文件 truthfulqaPro_450.csv
subset_500: 对应文件 truthfulqaPro_500.csv
subset_550: 对应文件 truthfulqaPro_550.csv
subset_595: 对应文件 truthfulqaPro_595.csv
subset_650: 对应文件 truthfulqaPro_650.csv

文件说明:

CSV 文件: truthfulqaPro_<K>.csv，其中 K ∈ {300, 350, 400, 450, 500, 550, 595, 650}。
清单文件: subset_manifest.csv — 包含 K、路径以及来自锁定摘要的验证均值。
配对列表文件: pair_ids/pair_ids_<K>_seed42.json — 种子 42 的规范配对 ID。

数据子集生成方法

子集通过以下步骤生成：

长度四分位数分层洗牌。
按否定/长度差距/ID 排序。
保留前 K 对（方法名为 feature_balanced_length_stratified_prefix）。

加载方式

使用 datasets 库加载，需指定配置名。 python from datasets import load_dataset manifest = load_dataset("foadnamjoo/TruthfulQAPro", "manifest") ds = load_dataset("foadnamjoo/TruthfulQAPro", "subset_650")

pair_ids/ 目录下的 JSON 文件不属于上述配置，需通过 Hugging Face Hub 的文件浏览器或 huggingface_hub.hf_hub_download 单独下载。

许可证信息

TruthfulQA（基础问答内容和多选结构）由原作者根据 Apache License 2.0 发布。
本版本中的子集选择、清单、配对ID JSON和文档由审计作者根据 MIT License 提供。CSV 文件的再分发仍需遵守 TruthfulQA 的 Apache-2.0 条款。

引用

原始 TruthfulQA 基准

bibtex @article{lin2022truthfulqa, title = {Truthful{QA}: Measuring How Models Mimic Human Falsehoods}, author = {Lin, Stephanie and Hilton, Jacob and Evans, Owain}, journal = {arXiv preprint arXiv:2109.07958}, year = {2022} }

本审计/子集工作

bibtex @misc{namjoo2026judging, title = {Judging by the Cover: Auditing Surface-Form Shortcuts in Binary-Choice Truth Benchmarks}, author = {Namjoo, Foad and Phillips, Jeff M.}, year = {2026}, url = {https://github.com/foadnamjoo/truthfulqa-audit}, note = {Manuscript in preparation.} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型在真实性问答任务中的表现至关重要。TruthfulQAPro数据集基于经典的TruthfulQA基准构建，通过特征平衡策略从原始数据中提取出多个固定规模的二元选择子集。构建过程采用长度四分位数分层抽样，随后依据否定词、长度差异及标识符进行排序，最终保留前K对样本，确保每个子集在表面形式特征上保持均衡，从而有效规避模型对特定词汇或句式产生偏好的风险。

特点

该数据集的核心特点在于其精心设计的特征平衡子集，涵盖300至650对样本规模，每个子集均经过严格的表面特征审计，包含十类可解释的词汇与风格属性。数据集提供详细的清单文件与规范的配对标识符JSON文件，支持精确的实验复现。通过分层抽样与特征排序，数据集在保持原始问答内容一致性的同时，显著提升了评估的鲁棒性，为模型真实性评估提供了可靠且结构化的基准。

使用方法

研究人员可通过Hugging Face平台便捷加载数据集，利用预定义的配置项分别访问清单或特定规模的子集。加载时指定相应配置名称即可获取结构化表格数据，而配对标识符文件需通过文件下载功能单独获取。该设计有效解决了数据合并时的类型错误问题，确保了数据读取的准确性与一致性，为模型性能评估与比较提供了高效且标准化的操作流程。

背景与挑战

背景概述

TruthfulQAPro数据集源于对大型语言模型真实性评估的深入探索。该数据集由Foad Namjoo与Jeff M. Phillips等研究人员于2026年构建，作为对原始TruthfulQA基准的扩展与审计。其核心研究问题聚焦于揭示并缓解二元选择题评测中存在的表面形式捷径，即模型可能依赖词汇或句式等浅层特征而非真实知识进行判断。这一工作深化了人工智能领域对模型可信赖性的理解，为更严谨的评测框架提供了方法论基础，对推动语言模型向更可靠、更鲁棒的方向发展具有显著影响力。

当前挑战

TruthfulQAPro旨在应对评测模型真实性时所面临的核心挑战：即如何设计能够有效区分模型是依靠深层事实推理，还是仅利用问题与选项间的表面关联（如否定词频、长度差异等统计特征）做出选择的评测任务。在数据集构建过程中，研究者需克服从原始数据中提取并定义可解释的词汇与风格特征、确保不同规模子集在特征分布上的平衡性，以及通过分层抽样与固定随机种子实现结果可复现性等多重技术难题，这些挑战共同指向了构建无偏、稳健评测基准的复杂性。

常用场景

经典使用场景

在自然语言处理领域，TruthfulQAPro数据集作为特征平衡的子集，主要用于评估大型语言模型在真实性与准确性方面的表现。其经典使用场景涉及对模型进行二进制选择题测试，通过精心设计的问答对，检验模型是否倾向于模仿人类常见的错误认知或表面形式的偏见。研究者通常利用该数据集的不同规模子集，系统性地分析模型在避免表面形式捷径方面的能力，从而为模型的可信度提供量化依据。

实际应用

在实际应用中，TruthfulQAPro为开发可靠的人工智能助手和内容生成系统提供了关键的评估工具。例如，在构建医疗咨询、法律咨询或新闻摘要等需要高准确性的AI系统时，开发者可以利用该数据集测试模型输出信息的真实性，防止模型传播错误或误导性内容。这有助于提升AI产品在关键领域的可信度和安全性，满足实际部署中对信息准确性的严格要求。

衍生相关工作

围绕TruthfulQAPro数据集，衍生了一系列关注基准评估可靠性的研究工作。例如，相关研究深入探讨了二元选择题中表面特征（如否定词长度、句式结构）对模型预测的影响，并提出了更鲁棒的评估协议。这些工作不仅扩展了对模型偏差的理解，也催生了新的数据集构建方法论，促进了整个领域对评估基准质量控制的重视，为后续开发更公平、更有效的模型评估体系奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集