truthfulqa

Hugging Face2025-09-17 更新2025-09-18 收录

下载链接：

https://huggingface.co/datasets/omarmohamed/truthfulqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估特定模型的过程中自动创建的。数据集由144个配置组成，每个配置对应一个评估任务。数据集由33次运行创建，每次运行都可以在配置的特定分割中找到，分割名称使用运行的日期时间。还有一个额外的配置“results”存储所有运行的汇总结果。README提供了使用datasets库加载数据集的Python示例。README还提供了从运行中加载数据集的Python示例，并提供了运行结果的Python代码片段。

This dataset was automatically created during the evaluation of a specific model. It comprises 144 configurations, each corresponding to one evaluation task. The dataset was generated through 33 runs, each of which is stored in a specific split of the configurations, with the split name being the datetime of the corresponding run. There is also an additional configuration named "results" that stores the aggregated results of all runs. The README provides Python examples for loading the dataset using the `datasets` library. Additionally, the README includes Python examples for loading the dataset from individual runs, as well as Python code snippets related to the run results.

创建时间：

2025-09-14

原始信息汇总

数据集概述

数据集来源

该数据集是在模型评估运行期间自动创建的，评估的模型为：/weka/s223795137/Refusal_hallucination/SALORA_expirements/llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m3_5

数据集结构

包含144个配置，每个配置对应一个评估任务
由33次运行组成，每次运行作为特定配置中的一个分割
分割使用运行的时间戳命名，"train"分割始终指向最新结果
包含一个额外的"results"配置，存储所有运行的聚合结果

配置示例

主要配置包括：

__weka__s223795137__Refusal_hallucination__SALORA_expirements__llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m3_5__truthfulqa_mc1
meta-llama__Meta-Llama-3-8B-Instruct__cnn_dailymail
meta-llama__Meta-Llama-3-8B-Instruct__minerva_math_algebra
meta-llama__Meta-Llama-3-8B-Instruct__minerva_math_counting_and_prob
meta-llama__Meta-Llama-3-8B-Instruct__minerva_math_geometry
meta-llama__Meta-Llama-3-8B-Instruct__minerva_math_intermediate_algebra
meta-llama__Meta-Llama-3-8B-Instruct__minerva_math_num_theory
meta-llama__Meta-Llama-3-8B-Instruct__minerva_math_prealgebra
meta-llama__Meta-Llama-3-8B-Instruct__minerva_math_precalc
多个MMLU相关配置（抽象代数、解剖学、天文学、商业伦理等）

数据加载方式

python from datasets import load_dataset data = load_dataset( "omarmohamed/truthfulqa", name="__weka__s223795137__Refusal_hallucination__SALORA_expirements__llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m3_5__truthfulqa_mc1", split="latest" )

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，truthfulqa数据集通过自动化评估流程构建，涵盖144种配置，每个配置对应一项评测任务。数据集源自33次独立运行，每次运行以时间戳命名并存储为独立分割，最新结果始终映射至train分割。构建过程中采用模型输出与标准答案的比对机制，确保数据生成的规范性与可复现性。

特点

该数据集以多任务评测框架为核心特征，覆盖数学、物理、医学、计算机科学等多个学科领域，包含生成式与选择题两种应答模式。其结构设计支持动态更新，每次评估运行均保留历史版本，便于追踪模型性能演变。数据条目附带准确率及标准误差指标，为量化分析提供可靠依据。

使用方法

用户可通过Hugging Face的datasets库加载数据集，指定具体配置名称与分割版本即可访问相应数据。例如调用load_dataset函数并传入truthfulqa_mc1配置名，可获取多项选择题形式的真实性评测数据。数据集支持按时间戳提取历史版本或使用latest分割获取最新结果，适用于模型性能对比与纵向研究。

背景与挑战

背景概述

TruthfulQA数据集诞生于人工智能自然语言处理领域对模型真实性评估的迫切需求，由研究团队在大型语言模型快速发展的背景下构建。该数据集专注于评估模型在问答任务中的真实性表现，旨在识别和减少模型生成错误或虚假信息的问题。通过设计涵盖广泛知识领域的问题，TruthfulQA为衡量模型的事实准确性和可靠性提供了重要基准，对提升语言模型的可信度和实际应用价值产生了深远影响。

当前挑战

TruthfulQA数据集面临的领域挑战主要在于如何准确评估模型输出的真实性，避免模型产生幻觉或错误信息。构建过程中的挑战包括设计具有高对抗性和多样性的问题，确保问题能够有效测试模型的事实核查能力，同时还需平衡问题的难度和覆盖面，以全面评估模型在不同知识领域的表现。

常用场景

经典使用场景

在自然语言处理领域，TruthfulQA数据集被广泛用于评估语言模型在真实性问答任务中的表现。该数据集通过多选一的问题设计，测试模型对常识性错误和误导性信息的辨识能力，成为衡量模型可信度的重要基准。研究人员利用该数据集系统分析模型在真实信息与虚假陈述之间的判断准确性，为模型可靠性研究提供数据支撑。

衍生相关工作

基于TruthfulQA数据集，研究者开发了多种模型真实性评估方法，如TruthfulQA-MC和TruthfulQA-Generation等衍生基准。这些工作扩展了原始数据集的评估维度，推动了Truthful-Rewards等奖励模型和真实性对齐技术的发展。相关研究还催生了针对特定领域真实性评估的专业化数据集，形成了完整的模型真实性评估生态系统。

数据集最近研究