xinhe-dataset

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/flufy3d/xinhe-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Xinhe Persona Memory Dataset是一个合成中文人格记忆对话数据集，旨在支持Xinhe项目研究小型Transformer在统一状态中涌现记忆能力。数据集包含多轮中文对话，每条样本包括用户陈述、修正或查询自身画像以及助手的回应，中间穿插与画像无关的日常话题作为干扰。辅助字段（`value`、`value_span`、`value_tier`、`weight_per_span`）由生成后的parser定位，用于训练时构造token级加权损失和计算召回准确率。数据由LLM（DeepSeek / OpenRouter多模型）在指定骨架下合成，并通过后处理parser在助手回答中定位value字符跨度。数据集采用JSONL格式，每条样本包含`sample_id`、`stage`、`skeleton_id`、`meta`和`conversations`等字段。适用于文本生成任务，特别是中文对话和记忆能力研究。数据集规模在10K到100K之间，分为多个配置（如`v8_stage0`、`v8_stage1`），每个配置包含训练集和验证集。许可证为CC-BY-4.0。

Xinhe Persona Memory Dataset is a synthetic Chinese persona memory dialogue dataset designed to support the Xinhe project in researching the emergent memory capabilities of small Transformers in a unified state. The dataset contains multi-turn Chinese dialogues, with each sample including user statements, corrections or queries about their persona, and assistant responses, interspersed with unrelated daily topics as distractions. Auxiliary fields (`value`, `value_span`, `value_tier`, `weight_per_span`) are located by a post-generation parser and are used to construct token-level weighted loss during training and to calculate recall accuracy. The data is synthesized by LLMs (DeepSeek / OpenRouter multi-models) under a specified skeleton and processed by a post-processing parser to locate value character spans in assistant responses. The dataset is in JSONL format, with each sample containing fields such as `sample_id`, `stage`, `skeleton_id`, `meta`, and `conversations`. It is suitable for text generation tasks, particularly Chinese dialogue and memory capability research. The dataset size ranges between 10K and 100K, divided into multiple configurations (e.g., `v8_stage0`, `v8_stage1`), each including training and validation sets. The license is CC-BY-4.0.

创建时间：

2026-04-27

原始信息汇总

数据集概述

Xinhe Persona Memory Dataset 是一个合成中文人格记忆对话数据集，专为 Xinhe（心核）项目设计，用于研究小型 Transformer 模型在统一状态中涌现记忆能力。

数据集特征

语言：中文（zh）
任务类型：文本生成（text-generation）
标签：记忆（memory）、人格（persona）、对话（dialogue）、合成（synthetic）
数据规模：10K 至 100K 样本（10K<n<100K）
许可证：CC-BY-4.0

数据格式

每条样本为一段多轮中文对话，采用 JSONL 格式。样本结构如下：

字段	类型	说明
`sample_id`	str	样本哈希短 ID
`stage`	str	课程阶段编号（与配置名对齐）
`skeleton_id`	str	对话骨架模板 ID
`meta`	object	包含轮次数（`n_turns`）、目标轮次（`target_turns`）、距离桶（`distance_bucket`：near/mid/far）、内存快照（`memory_snapshot`）
`conversations`	list	对话轮次列表。每轮包含角色（`role`：user 或 assistant）和内容（`content`）；助理回复额外包含：`train_loss`、`value`、`value_span`、`value_tier`、`weight_per_span`，用于训练时构造 token 级加权损失和计算召回准确率

数据生成

数据集由 LLM（DeepSeek / OpenRouter 多模型）在指定骨架（skeleton）下合成，再通过后处理解析器（parser）在助理回答中定位 value 字符跨度。

配置与加载

数据集提供多个配置（config），每个配置包含训练集（train）和验证集（validation），部分还包含 train_codex（codex-flavored 变体）。配置命名规则为 <version>_<stage>，例如：

v8_stage0：训练集路径 data/v8/stage0/train.jsonl，验证集路径 data/v8/stage0/val.jsonl
v8_stage1：训练集路径 data/v8/stage1/train.jsonl，验证集路径 data/v8/stage1/val.jsonl

加载示例（Python）：

python from datasets import load_dataset

ds = load_dataset("flufy3d/xinhe-dataset", "v8_stage0", split="train") print(ds[0]["conversations"])

国内镜像

国内用户可通过 hf-mirror.com 访问： bash export HF_ENDPOINT=https://hf-mirror.com huggingface-cli download --repo-type dataset flufy3d/xinhe-dataset --local-dir data

维护与引用

由 @flufy3d 维护，学术使用请引用 Xinhe 项目（GitHub 仓库）。

搜集汇总

数据集介绍

构建方式

该数据集由大型语言模型（如DeepSeek及OpenRouter多模型）依据预设的对话骨架模板进行合成，生成包含用户陈述、修正或查询自身画像以及助手回应在内的多轮中文对话。在生成过程中，系统特意穿插与画像无关的日常话题作为干扰项，以模拟真实对话的复杂性。生成完成后，通过后处理解析器在助手回答中精确标记出与画像相关的字符跨度，并附带权重与层级信息，最终以JSONL格式存储每条样本。

特点

数据集以课程学习理念组织，划分为多个版本与阶段（如v8_stage0、v8_stage1），每个阶段对应不同的任务难度或对话复杂度。每条样本不仅包含对话内容，还附有元数据字段，如轮次数量、目标轮次距离类别（近/中/远）以及记忆快照，便于研究者分析模型对长期信息的记忆与召回能力。此外，助手回答中的每个值跨度均配有训练损失权重，支持构建令牌级加权损失函数，从而实现高精度的召回准确率评估。

使用方法

用户可通过HuggingFace的datasets库直接加载该数据集，指定配置名称（如v8_stage0）和数据集分割（train或validation）即可获取。数据集的配置文件结构清晰，允许灵活选取不同课程阶段的数据进行训练或验证。对于国内用户，可通过设置环境变量使用镜像站点加速下载。加载后的数据以字典形式呈现，可直接访问对话轮次列表及其中包含的画像字段，便于集成到现有的Transformer训练流程中。

背景与挑战

背景概述

心核数据集（Xinhe Dataset）由独立研究者flufy3d于2024年创建，聚焦于小型Transformer模型在统一状态空间中涌现记忆能力的核心研究问题。该数据集以合成中文人格记忆对话为媒介，通过精心设计的多轮对话结构，探索了对话系统中长期记忆存储与检索的机制。作为心核（Xinhe）项目的重要组成部分，该数据集为记忆增强型对话系统的研究提供了标准化的训练与评估基准，推动了自然语言处理领域中人机交互与认知建模的交叉研究，对理解小型语言模型的记忆涌现现象具有开创性意义。

当前挑战

该数据集的研究面临多重挑战。在领域问题层面，主要挑战在于如何在有限的模型容量下，使小型Transformer在统一状态中有效存储和精确检索用户长期画像信息，同时抵御无关干扰信息的干扰，实现记忆的稳健涌现。在数据集构建过程中，挑战体现在：合成对话的自然性与多样性平衡，需兼顾画像陈述、修正与日常干扰话题的真实融合；后处理解析器对值跨度的精确标注，以确保训练时加权损失的准确性；以及课程学习阶段的设计，如何通过多阶段样本组织逐步引导模型提升记忆能力。此外，多模型合成的风格一致性也增加了数据质量控制难度。

常用场景

经典使用场景

在人格化对话系统的研究领域，心核人格记忆数据集（Xinhe Persona Memory Dataset）作为一项精心构建的中文合成资源，专门服务于小型Transformer模型在统一状态空间中涌现记忆能力的探索。该数据集的核心使用场景聚焦于多轮对话中的人格记忆建模与评测，每条样本均包含用户对自身画像的陈述、修正与查询，其间巧妙穿插与画像无关的日常话题作为干扰，从而模拟真实对话中的记忆检索与更新挑战。借助后处理解析器在助手回复中精准定位的value字符跨度及其层级权重，研究者能够构造token级加权损失函数，实现对模型记忆召回准确率的细粒度计算，为记忆增强型对话系统的开发提供了标准化评估基准。

衍生相关工作

围绕心核人格记忆数据集，已经衍生出一系列具有启发意义的经典工作。该数据集最初诞生于心核（Xinhe）项目，该项目致力于研究小型Transformer在统一状态空间中如何通过课程学习策略涌现出稳定的记忆能力，其核心思想启发了后续许多关于记忆架构与训练范式的研究。受其影响，研究者们开始探索将token级加权损失机制推广至其他条件生成任务，并在多模态对话系统中尝试引入相似的人设记忆追踪框架。此外，该数据集的合成生成方法——即利用大语言模型（如DeepSeek与OpenRouter多模型）在指定骨架模板下注入人格信息，结合后处理解析器定位关键跨度——已被多个中文对话数据集构建项目采纳为高效且成本可控的范例。这些衍生工作共同推动了记忆增强型自然语言处理领域的理论深化与工具生态建设。

数据集最近研究