flufy3d/xinhe-dataset
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/flufy3d/xinhe-dataset
下载链接
链接失效反馈官方服务:
资源简介:
合成中文人格记忆对话数据集,用于Xinhe(心核)项目研究小型Transformer在统一状态中涌现记忆能力。每条样本是一段多轮中文对话,包含用户陈述/修正/查询自身画像及助手回应,中间穿插与画像无关的日常话题作为干扰。辅助字段(如value、value_span等)由parser在生成后定位,用于训练时构造token级加权损失,可计算召回准确率。数据由LLM(DeepSeek/OpenRouter多模型)在指定骨架下合成,再由后处理parser在assistant回答中定位value字符跨度。
Synthetic Chinese persona memory dialogue dataset for the Xinhe project, researching the emergent memory capabilities of small Transformers in a unified state. Each sample is a multi-turn Chinese dialogue containing user statements/corrections/queries about their persona and assistant responses, interspersed with daily topics unrelated to the persona as distractions. Auxiliary fields (e.g., value, value_span) are located by a parser post-generation for constructing token-level weighted loss during training, enabling recall accuracy calculation. Data is synthesized by LLMs (DeepSeek/OpenRouter multi-models) under specified skeletons, with value character spans located in assistant responses by a post-processing parser.
提供机构:
flufy3d
搜集汇总
数据集介绍

构建方式
该数据集的构建融合了合成生成与真实数据筛选两种策略。其中,skeleton配置通过11种合成骨架对话模板,融入paragraph distract机制,模拟needle-in-haystack等长程记忆压力场景;dialog配置借助DeepSeek与OpenRouter等大型语言模型生成5-Beat自然多轮对话,以贴近真实交互分布;novel配置将中文长篇小说按约350字粒度切块,每轮对话串联8个连续章节片段,构造长上下文预测任务;longcite配置基于LongCite-45k数据集,将长文档分块后末轮嵌入问答对;congliu配置则从Chinese-DeepSeek-R1-Distill-data-110k中提取包含<think>推理链的单轮问答样本。五类数据按比例动态混合,不生成物理混合文件,直接读取各源config进行训练。
特点
数据集的核心特色在于针对小型Transformer在fast-weights NeuralMemory中习得长程记忆能力而精心设计。skeleton配置提供多种记忆读写对抗模板,涵盖覆写、删除与stale-read干扰,用于sanity probe与长episode压力测试;dialog配置以自然对话分布模拟真实代理交互;novel与longcite配置分别从长篇小说与长文档问答两个维度施加连续上下文压力;congliu配置则引入真实长推理分布。样本包含sample_id与stage等字段,辅助定位数据来源;assistant轮次中的train_loss字段支持细粒度损失控制,skeleton与dialog配置还包含VALUE token及其权重,用于构造token级加权损失,novel、longcite与congliu则专注于纯长上下文next-token任务。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集。指定config_name为skeleton、dialog、novel、longcite或congliu之一,即可获取对应配置的训练与验证集。例如,调用load_dataset('flufy3d/xinhe-dataset', 'novel', split='train')可加载novel配置的训练数据。每条样本以jsonl格式存储,包含conversations字段,其中每条消息带有role与content,assistant回复中可指定train_loss以控制损失计算。国内用户可通过设置HF_ENDPOINT环境变量为https://hf-mirror.com,利用huggingface-cli下载至本地目录。该数据集采用CC-BY-4.0许可,仅限研究用途。
背景与挑战
背景概述
xinhe-dataset是由研究者flufy3d主导构建的中文长上下文与多轮对话训练数据集,诞生于对小型Transformer模型在快速权重神经网络中习得长程记忆能力的探索。该数据集围绕Xinhe(心核)项目设计,旨在通过合成骨架对话、自然多轮交互、长篇小说段落、长文档问答及推理蒸馏数据等五种配置,系统性地训练模型在长序列中维持连贯记忆与上下文感知。其核心研究问题在于突破传统注意力机制的上下文窗口限制,使轻量级架构也能效仿Titans等模型实现记忆增强。数据集采用CC-BY-4.0许可发布,为中文长上下文学习领域提供了基准资源,尤其在促进高效记忆机制的实证研究方面具有深远影响。
当前挑战
xinhe-dataset所解决的领域挑战在于,小型Transformer在长程对话或文档中常因记忆衰退导致响应碎片化或事实矛盾,而现有数据集多聚焦短上下文或单轮任务,缺乏针对记忆写入、覆写与对抗性读取的系统性训练素材。在构建过程中,首要挑战是设计11种合成骨架对话以模拟针束搜索、陈旧读取对抗等记忆压力场景,并需将段落干扰从短答案库拼接为长段,兼顾上下文长度与逻辑连贯性。此外,多源数据的整合面临格式统一难题,如来自LongCite-45k的长文档需切分为多轮chunk与问答对,而R1推理蒸馏数据需保留标准标记格式,同时确保不同配置在动态混合训练时比例均衡,避免预生成物理文件带来的存储开销。
常用场景
经典使用场景
Xinhe数据集专为训练小型Transformer模型在快速权重神经记忆(fast-weights NeuralMemory)中习得长程记忆能力而设计。其经典使用场景聚焦于多轮对话与长上下文生成任务,通过五种异构配置(skeleton骨架合成对话、dialog自然多轮对话、novel长篇小说块、longcite长文档问答、congliu推理蒸馏单轮问答)模拟真实世界的记忆与检索需求。研究者可将该数据集作为基准,评估模型在超长序列(如小说章节连续块)、复杂对话历史依赖(如多轮覆写与删除操作)以及检索增强生成环境下的表现,尤其适用于测试Titans MAC架构与LoRA微调策略的长期记忆巩固效果。
解决学术问题
该数据集系统性地解决了语言模型长上下文记忆保持与对抗性遗忘的学术难题。通过skeleton配置中的11种合成骨架(包括needle-in-haystack写读、覆写、删除、stale-read对抗),它提供了一个可控测试平台,用于探究模型在长episode压力下的记忆持久性与抗干扰能力。novel与longcite子集则模拟了现实长文档推理场景,推动了对分段式上下文理解与定位式答案生成的研究。Xinhe的发布填补了中文领域缺乏面向记忆机制评测的高质量合成数据的空白,促进了快速权重记忆网络、神经图灵机等架构在对话系统与知识密集型任务中的理论验证。
衍生相关工作
Xinhe数据集衍生出一系列关于长上下文语言模型的经典工作。其骨架模板激励了针对记忆对抗鲁棒性的研究,如基于needle-in-haystack的扰动测试方法与令牌级加权损失函数设计。项目中提出的mix_dynamic动态混合采样策略被后续工作借鉴,用于构建异构训练数据平衡方案。同时,数据集推动了Chinese-DeepSeek-R1-Distill-data-110k与LongCite-45k的融合应用,催生了跨文档推理与长序列知识蒸馏的系列实验。Xinhe作为Xinhe(心核)项目的核心底座,已成为评估轻量级Transformer记忆能力的标准基准,被多篇论文引用以验证快速权重机制对长程依赖建模的有效性。
以上内容由遇见数据集搜集并总结生成



