falcon_mmlu_generated_texts_verify_claims_deepseek

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/IvanLazichny/falcon_mmlu_generated_texts_verify_claims_deepseek

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于问答、事实核查或主张验证任务的结构化数据集，核心由问题（question）和答案（answer）对组成。数据集包含丰富的注释信息，特别是‘claims’（主张）字段，该字段是一个结构化列表，为每个主张提供了主张文本（claim_text）、相关的句子（sentence）以及对齐的令牌ID（aligned_token_ids）。其他技术性字段包括输入ID序列（input_ids）、模型回复（reply）、验证状态（verified，以浮点数列表表示）和不确定性标签（uncertainty_labels，以浮点数列表表示）。这些特征表明，该数据集可能旨在训练或评估模型在生成回答、核查事实主张的准确性以及量化回答不确定性方面的能力。数据集总共有7,161个样本，分为训练集（1,461个样本）和验证集（5,700个样本）。

This dataset is a structured dataset for question answering, fact-checking, or claim verification tasks. The core data consists of question-answer pairs. Additionally, the dataset includes richer annotation information, particularly the claims field, which is a structured list providing claim text, related sentences, and aligned token IDs for each claim. Other technical fields include input ID sequences (input_ids), model replies (reply), verification status (verified, represented as a list of floats), and uncertainty labels (uncertainty_labels, represented as a list of floats). These features suggest that the dataset may be designed to train or evaluate models in generating answers, verifying the accuracy of factual claims, and quantifying answer uncertainty. The dataset contains a total of 7,161 samples, divided into a training set (1,461 samples) and a validation set (5,700 samples).

创建时间：

2026-05-14

原始信息汇总

根据您提供的数据集详情页面信息，以下是该数据集的总结：

数据集概述

该数据集名为 falcon_mmlu_generated_texts_verify_claims_deepseek，主要用于文本生成与事实核查相关的任务。

数据特征

数据集包含以下特征字段：

question：字符串类型，表示问题文本。
answer：字符串类型，表示答案文本。
input_ids：整数列表（int32），可能为模型的输入编码。
reply：字符串类型，表示生成的回复文本。
claims：包含子结构的列表，每个子结构包括：
- claim_text：字符串类型，表示声明文本。
- sentence：字符串类型，表示句子文本。
- aligned_token_ids：长整数列表（int64），表示对齐的令牌ID。
verified：浮点数列表（float64），表示验证结果。
uncertainty_labels：浮点数列表（float64），表示不确定性标签。

数据集划分

数据集分为两个子集：

训练集（train）：包含 1,461 个样本，大小为 20,295,440 字节。
验证集（validation）：包含 5,700 个样本，大小为 74,062,393 字节。

数据集大小

下载大小：75,143,532 字节
数据集总大小：94,357,833 字节

配置信息

默认配置下，数据文件路径为：

训练集：data/train-*
验证集：data/validation-*

搜集汇总

数据集介绍

构建方式

该数据集基于Falcon模型生成的MMLU文本内容，通过引入DeepSeek模型对生成文本中的陈述进行验证与标注而构建。构建过程中，首先将原始问答对中的问题与答案整理为基础字段，随后提取模型回复中的具体陈述（claims），并将其与原始句子、对齐的token序列进行结构化关联。每个陈述均经过验证过程，生成了验证标签（verified）与不确定性标签（uncertainty_labels），从而形成包含文本、语义对齐及可信度评估在内的多层级标注体系。数据集划分为训练集（1461条）与验证集（5700条），兼顾了模型微调与评估的需求。

特点

该数据集的核心特点在于融合了生成文本的语义分解与事实验证机制。每个样本不仅保留了原始问答与回复，还细粒度地提取了其中的独立陈述，并提供了与原文句子的映射关系及token级别的对齐信息。验证标签与不确定性标签的引入，使得数据兼具客观事实性与主观可信度评估维度，适用于需要分析生成内容准确性的场景。此外，数据集包含丰富的数值型特征（如input_ids、aligned_token_ids），便于深度学习模型的直接接入与表示学习。

使用方法

数据集以标准化格式存储，支持通过HuggingFace Datasets库直接加载使用。用户可指定配置名（default）与数据分割（train/validation）进行访问，每条数据包含question、answer、reply等文本字段，以及input_ids、claims、verified等结构化字段。在模型训练或评估时，可利用claims子结构进行细粒度的事实检测任务，或结合verified与uncertainty_labels构建分类与置信度预测目标。数据文件以分片形式存储于data目录下，便于分布式处理与大规模加载。

背景与挑战

背景概述

Falcon MMLU Generated Texts Verify Claims Deepseek数据集是近年来大语言模型可信度评估领域的重要资源，由技术社区和研究机构联合创建，旨在系统性地剖析生成文本中蕴含的陈述（claims）与事实一致性。该数据集聚焦于MMLU（Massive Multitask Language Understanding）基准测试中模型输出的验证任务，通过人工标注与自动化流程结合，为每个技术性问答生成对应的真实性标签与不确定性度量。其核心研究问题在于如何量化并提升大语言模型在复杂知识推理下的诚实性与可靠性，为后续的事实核查与安全对齐研究提供了基础性支撑。

当前挑战

该数据集当前面临的挑战主要体现在两方面。领域问题层面，大语言模型普遍存在的‘幻觉’现象使其生成的陈述难以自动评估真实性，MMLU中涉及的多领域知识又加剧了事实核查的复杂性，亟需可扩展的验证框架。构建过程中，由于需要从生成的自由文本中抽取原子化陈述并跨知识源对齐，标注体系的设计与一致性控制成为难点，同时高维度的不确定性与验证标签间的非线性关联也对模型训练提出了额外要求。

常用场景

经典使用场景

在自然语言处理与可信人工智能的交汇领域，falcon_mmlu_generated_texts_verify_claims_deepseek数据集为评估大语言模型生成内容的真实性与可靠性提供了标准化基准。该数据集基于MMLU多任务知识问答框架，将模型生成的回答拆解为原子化的声明（claims），并通过人工或自动标注手段对每条声明的真实性进行验证，辅以不确定性标签（uncertainty_labels），从而支持对模型事实一致性、幻觉现象与置信度校准的精细分析。研究者可借此系统性地检验模型在不同知识领域内生成文本的准确程度，为构建更值得信赖的对话系统夯实基础。

实际应用

在实际产业部署中，该数据集为构建高可信度的知识问答系统和内容审核工具提供了关键训练资源。例如，智能客服机器人可借助数据集训练的声明验证模型，自动校验其回复中涉及的事实（如法律条款、医疗信息），并在置信度不足时主动告知用户或转接人工。教育科技领域，AI辅导系统能够利用不确定性标签识别可能错误的解释，避免传播不准确内容。此外，新闻摘要生成与自动化事实核查平台也能依托此类细粒度验证数据，有效降低虚假信息扩散风险，推动生成式AI在金融、医疗等高风险场景中的安全落地。

衍生相关工作

该数据集的发布催生了一系列富有影响力的衍生研究。在方法论层面，它启发了基于检索增强生成（RAG）的声明验证框架，即通过引入外部知识库对模型声明进行即时核对，显著提升事实一致性；同时，结合不确定性标签的主动学习策略被广泛应用于红队测试与模型鲁棒性分析。在应用创新上，有多项工作基于此数据集开发了面向特定领域（如医学、法律）的幻觉检测工具，并推出了“声明级对齐”技术，通过微调使模型更倾向于承认知识局限而非编造答案。这些成果共同构筑了可信生成式AI技术的坚实理论基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集