TokenHD-training-data

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/mr233/TokenHD-training-data

下载链接

链接失效反馈

官方服务：

资源简介：

TokenHD训练数据集是一个专门用于训练Token级幻觉检测模型（TokenHD）的标注数据集。该数据集旨在通过提供细粒度的、Token级别的软标签，来帮助模型识别和定位大型语言模型（LLM）生成文本中的幻觉（即不准确或虚构）内容。数据集包含来自数学推理和代码推理两个领域的样本，总计约124,071条数据。其中，数学领域数据（tokenhd_math_train.jsonl）包含82,191个样本，来源于math_train、big_math、nv_ace和gemini_math_train等子集；代码领域数据（tokenhd_code_train.jsonl）包含41,880个样本，来源于gpt-4o-mini和gemini-2.0-flash生成的响应。每个数据样本包含以下核心字段：输入问题（`problem`）、LLM生成的原始回答（`raw_answer`）、回答的整体正确性标签（`correctness`，1表示完全匹配，0表示等价，-1表示错误）、原始回答的Token ID序列（`token_ids`，使用Qwen3-8B分词器）、每个Token对应的软幻觉分数（`token_weights`，范围在[0,1]之间，分数越高表示该Token是幻觉的可能性越大）以及所属领域（`domain`，取值为math或code）。数据集中的软标签（`token_weights`）是由GPT-4.1和o4-mini两个评判模型通过一种自适应的、学习权重的集成方法生成的，代表了最终处理好的、可直接用于模型训练的数据。该数据集适用于自然语言处理中的Token分类任务，特别是针对文本生成模型输出进行细粒度幻觉检测的研究和开发。

The TokenHD training dataset is a specialized annotated dataset designed for training Token-level Hallucination Detection (TokenHD) models. It aims to assist models in identifying and localizing hallucinations (i.e., inaccurate or fabricated content) in text generated by large language models (LLMs) by providing fine-grained, token-level soft labels. The dataset includes samples from two domains: mathematical reasoning and code reasoning, totaling approximately 124,071 data points. Specifically, the math domain data (tokenhd_math_train.jsonl) contains 82,191 samples derived from subsets such as math_train, big_math, nv_ace, and gemini_math_train; the code domain data (tokenhd_code_train.jsonl) contains 41,880 samples sourced from responses generated by gpt-4o-mini and gemini-2.0-flash. Each data sample includes the following core fields: input problem (`problem`), raw answer generated by an LLM (`raw_answer`), overall correctness label for the answer (`correctness`, where 1 indicates exact match, 0 indicates equivalence, and -1 indicates error), token ID sequence of the raw answer (`token_ids`, using the Qwen3-8B tokenizer), soft hallucination score for each token (`token_weights`, ranging from [0,1], with higher scores indicating a greater likelihood of the token being a hallucination), and the domain (`domain`, with values of math or code). The soft labels (`token_weights`) in the dataset are generated by two evaluation models, GPT-4.1 and o4-mini, through an adaptive, learned-weight ensemble method, representing the final processed data ready for direct use in model training. This dataset is suitable for token classification tasks in natural language processing, particularly for research and development in fine-grained hallucination detection for text generation model outputs.

创建时间：

2026-05-13

原始信息汇总

数据集概述：TokenHD-training-data

TokenHD-training-data 是一个用于训练 TokenHD （标记级幻觉检测器）的令牌级幻觉标注数据集，采用软标签（soft labels）形式。

许可证：MIT
语言：英语（en）
任务类别：令牌分类（token-classification）
标签：幻觉检测（hallucination-detection）、令牌级（token-level）、软标签（soft-labels）

来源与关联资源

论文：arxiv.org/abs/2605.12384
代码：github.com/rmin2000/TokenHD
模型集合：HuggingFace Collection
评估数据集：mr233/TokenHD-eval-data

数据文件

文件	样本数	领域	描述
`tokenhd_math_train.jsonl`	82,191	数学（math）	数学推理数据（含 math_train + big_math + nv_ace + gemini_math_train）
`tokenhd_code_train.jsonl`	41,880	代码（code）	代码推理数据（含 gpt-4o-mini + gemini-2.0-flash）

数据模式（Schema）

每条记录包含以下字段：

字段	类型	描述
`problem`	str	输入问题 / 提示
`raw_answer`	str	大模型（LLM）生成的回答
`correctness`	int	`1` = 精确匹配，`0` = 等价，`-1` = 错误
`token_ids`	list[int]	`raw_answer` 的令牌ID（使用 Qwen3-8B 分词器）
`token_weights`	list[float]	每个令牌的软幻觉分数，取值区间 `[0, 1]`
`domain`	str	`"math"` 或 `"code"`

标注方法与生成过程

标注模型：采用两个批评模型（critic models）的 自适应集成（adaptive ensemble）：
- gpt-4.1
- o4-mini
集成方式：通过自适应（学习权重）集成生成软令牌级标签。
数据状态：最终处理数据，可直接用于训练脚本。

使用示例

可直接通过 HuggingFace 数据集加载并用于训练（无需本地下载），例如在 TokenHD 训练脚本中使用：

bash bash training/train.sh Qwen3-1.7B portion 1 1.0 0.02 0.5 ckpts/tokenhd-1.7b "--hf_dataset mr233/TokenHD-training-data --hf_data_files tokenhd_math_train.jsonl"

策略模型（Policy Models）

数学：gpt-4o-mini（math_train, big_math, nv_ace）+ gemini-2.0-flash（math_train）
代码：gpt-4o-mini + gemini-2.0-flash

批评/标注模型（Critic/Annotator Models）

gpt-4.1 和 o4-mini，通过自适应（学习权重）集成组合。

搜集汇总

数据集介绍

构建方式

TokenHD-training-data数据集专为训练TokenHD幻觉检测器而构建，其核心创新在于采用自适应集成策略，融合了gpt-4.1与o4-mini两种批评模型，对每个token生成软标签。这一构建过程确保了标注的稳健性与准确性，最终形成了可直接用于训练脚本的高质量数据。数据集涵盖数学与代码两大推理领域，分别包含82,191条和41,880条样本，数学数据整合了math_train、big_math、nv_ace和gemini_math_train等多个来源，代码数据则基于gpt-4o-mini和gemini-2.0-flash模型生成。

特点

该数据集的显著特点在于提供token级别的软标签标注，每个token对应一个介于0到1之间的幻觉分数，而非简单的二元分类，这为模型学习细粒度幻觉模式提供了丰富信息。每条记录包含问题文本、模型回答、整体正确性判断以及由Qwen3-8B分词器生成的token ID序列，结构紧凑而完整。此外，数据集的领域划分清晰，分别聚焦数学推理与代码生成场景，且所有样本均经过严格的正确性评估，分为精确匹配、等价与错误三类，确保了标签的可靠性。

使用方法

使用该数据集极为便捷，可直接通过HuggingFace加载并用于训练TokenHD系列检测器，无需本地下载。用户只需执行训练脚本，指定模型基座（如Qwen3-1.7B）与数据集标识符mr233/TokenHD-training-data，并选择对应的数据文件（如tokenhd_math_train.jsonl）即可启动训练流程。数据集的JSONL格式支持逐行读取，每个字段如problem、raw_answer、token_ids和token_weights均清晰定义，便于用户自定义数据加载逻辑或进行下游任务适配。

背景与挑战

背景概述

TokenHD-training-data数据集由研究团队于近年创建，旨在推动大语言模型（LLM）中幻觉检测任务的精细化发展。该数据集的核心创新在于提供了token级别的软标签注释，通过自适应集成GPT-4.1和o4-mini两个评判模型，实现对生成内容中幻觉成分的细粒度标注。数据集涵盖了数学推理与代码生成两大高需求领域，为训练TokenHD检测器提供了高质量的训练素材。其发布填补了在细粒度、软标签化幻觉检测领域的空白，为后续研究提供了标准化基准，显著推动了LLM输出可靠性评估的前沿探索。

当前挑战

该数据集面临的主要挑战包括：首先，在领域问题层面，大语言模型生成的文本中存在隐式或局部的幻觉内容，传统的整体评分难以准确定位，TokenHD通过token级标注实现了更精确的检测，但仍需应对不同领域和模型间幻觉表现的差异性。其次，在构建过程中，数据注释依赖两个高成本评判模型的集成，如何平衡标注精度与资源开销是一大难题。此外，数学与代码领域中的答案等价性判断（如正确但表述不同的解答）需要细致规则，确保soft标签的稳定性和泛化能力，这对数据质量控制提出了严苛要求。

常用场景

经典使用场景

TokenHD-training-data 是专为训练细粒度幻觉检测模型 TokenHD 而设计的核心数据集，其经典使用场景在于赋予语言模型在逐词级别上识别生成内容中幻觉片段的独特能力。数据集中每条样本均包含由 GPT-4.1 与 o4-mini 两大评判模型通过自适应集成策略生成的软标签，细致标注了数学与代码推理领域中每个词元的幻觉置信度。研究者可直接利用本数据对 Qwen 系列等基础模型进行微调，使其能够输出每一词元为幻觉的概率，从而突破传统粗粒度句子级或段落级幻觉检测的局限，输出更为精准的检测结果。

解决学术问题

该数据集所致力解决的核心学术问题在于大语言模型在面对复杂数学和代码推理任务时普遍存在的内容捏造或事实偏离现象，即所谓的幻觉问题。传统检测方法多依赖于句子层面的二元分类或整体评估，难以定位错误的具体词汇来源。TokenHD-training-data 通过提供词元级别的软标签标注，试图弥合模型输出与真实事实对齐之间的鸿沟。此项工作促进了模型可解释性的提升，使研究者得以深入剖析模型在生成推理链条时潜在的错误根源，并对改善模型的忠实度、安全性和对齐性具有重要启示。

衍生相关工作

TokenHD-training-data 的发布催生了一系列围绕词元级幻觉检测的拓展性研究。相关衍生工作方向包括探索将软标签机制迁移至医疗、科学文献摘要等更广泛领域的幻觉检测模型中，利用自定义评判模型组合以提升标注准确性；基于软标签设计新的训练目标或正则化方法以更高效地抑制模型推理过程中的幻觉产生；以及开发更轻量化的 TokenHD 变体以满足低资源设备的部署需求。此外，该数据集所提供的自适应集成标注思路也为后续研究提供了新的基准评估范式，启发研究者从大规模模型协作的角度审视和解决生成内容可信性问题。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集