new-persona-cookbook-dataset

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/patrickfleith/new-persona-cookbook-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个训练集，每个训练集由摘要、文档及相关元数据组成。元数据包括字数统计、人物描述、关系类型以及相关人物描述等字段。数据集的结构在不同配置中略有差异，部分配置包含生命周期阶段和相关生命周期阶段字段。每个训练集的大小和样本数量各不相同，样本数量从5到100不等，数据大小从13KB到304KB不等。该数据集适用于自然语言处理任务，如文本摘要、人物关系分析等。数据集标记为'datafast'，可能属于某个更大的数据集合或框架。

创建时间：

2026-04-05

原始信息汇总

数据集概述

基本信息

数据集名称: new-persona-cookbook-dataset
发布者: patrickfleith
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/patrickfleith/new-persona-cookbook-dataset

数据集结构与内容

数据集包含多个配置版本，其结构特征汇总如下：

主要特征字段

数据集包含以下核心特征字段，但不同版本间存在字段差异：

summary: 摘要（字符串类型）
document: 文档内容（字符串类型）
word_count: 词数（整数类型）
persona_description / persona: 人物角色描述（字符串类型）
relationship_type: 关系类型（字符串类型）
related_persona_description / related_persona: 相关人物角色描述（字符串类型）

版本特定字段

部分版本包含以下额外字段：

life_stage: 人生阶段（字符串类型）
related_life_stage: 相关人生阶段（字符串类型）
source_dataset: 源数据集（字符串类型）
source_split: 源数据分割（字符串类型）
source_id: 源数据ID（字符串类型）
persona_basis: 人物角色依据（字符串类型）
user_prompt: 用户提示（字符串类型）
prompt_basis: 提示依据（字符串类型）

数据规模与分割

所有配置版本均仅包含训练集（train split），具体规模如下：

版本一
- 样本数量: 100
- 数据集大小: 304,082 字节
- 下载大小: 201,845 字节
版本二
- 样本数量: 100
- 数据集大小: 301,202 字节
- 下载大小: 201,226 字节
版本三
- 样本数量: 100
- 数据集大小: 295,388 字节
- 下载大小: 198,682 字节
版本四
- 样本数量: 5
- 数据集大小: 13,868 字节
- 下载大小: 23,616 字节
版本五
- 样本数量: 5
- 数据集大小: 13,578 字节
- 下载大小: 22,813 字节
版本六
- 样本数量: 19
- 数据集大小: 118,260 字节
- 下载大小: 106,713 字节

数据文件

配置名称: default
数据路径: data/train-* （所有版本均使用此路径模式）

搜集汇总

数据集介绍

构建方式

在自然语言生成领域，人物角色引导的文本合成任务日益受到关注。new-persona-cookbook-dataset的构建依托于多源文本数据的整合与标注，通过系统化地提取原始文档及其摘要，并辅以人物角色描述、关系类型及关联角色信息，形成结构化样本。该过程涉及对文本内容的深度解析，确保每个数据条目均包含完整的叙事要素与角色互动特征，为后续模型训练提供了丰富且一致的语料基础。

特点

该数据集的核心特征在于其多层次的人物角色与关系标注体系。每个样本不仅包含原始文档与摘要，还细致标注了人物角色描述、关系类型及相关角色信息，部分版本还引入了生命阶段等维度。这种结构化设计使得数据集能够精准捕捉人物间的动态交互与叙事逻辑，为研究角色一致性、关系推理及个性化文本生成提供了多维度的数据支持。

使用方法

针对人物角色驱动的自然语言处理任务，该数据集可直接用于训练或评估生成模型。研究人员可依据人物角色描述与关系类型，指导模型生成符合特定角色特征的连贯文本；亦可通过摘要与文档的对应关系，探究角色信息对内容压缩与重构的影响。数据集的标准格式便于加载与预处理，支持基于HuggingFace生态的快速实验迭代。

背景与挑战

背景概述

在自然语言处理领域，个性化文本生成与理解逐渐成为研究热点，旨在使模型能够根据特定人物角色（persona）生成或解析文本。new-persona-cookbook-dataset应运而生，该数据集由DataFast团队构建，专注于提供结构化的人物角色描述、关系类型及关联文本摘要。其核心研究问题在于探索如何基于详细的人物设定（如人生阶段、角色描述）生成连贯且符合角色特征的文本内容，从而推动对话系统、故事生成等应用的个性化发展。该数据集通过整合多维度人物属性，为模型训练提供了丰富的上下文信息，有助于提升生成文本的准确性与多样性，对个性化人工智能领域具有显著影响力。

当前挑战

该数据集旨在解决个性化文本生成中的挑战，即如何使模型依据复杂的人物角色（包括人生阶段、关系类型等）生成自然且一致的文本。构建过程中面临多重困难：首先，人物角色描述的标注需要高度一致性，以确保不同标注者对同一角色的理解相同；其次，关系类型的分类需涵盖多样化的社会互动场景，这要求细致的领域知识；此外，文本摘要与原始文档的对应必须精确，避免信息丢失或扭曲。这些挑战共同考验着数据集的构建质量与实用性，对后续模型训练构成关键影响。

常用场景

经典使用场景

在自然语言生成领域，new-persona-cookbook-dataset以其丰富的角色描述和关系标注，为个性化文本生成提供了经典范例。该数据集通过整合摘要、文档及角色属性，使得研究者能够训练模型生成符合特定角色特征的连贯叙述，广泛应用于对话系统和故事创作中，以模拟真实人物的语言风格和互动模式。

解决学术问题

该数据集有效解决了角色一致性建模和关系驱动文本生成的学术挑战。通过提供详细的生命阶段、角色描述和关系类型，它支持研究者在多角色叙事中保持逻辑连贯性，并探索角色属性如何影响语言表达，从而推动了可控文本生成和个性化人工智能的发展，为自然语言处理领域注入了新的理论视角。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，包括角色感知的对话生成模型和关系增强的故事生成系统。这些工作利用数据集中的角色和关系属性，开发了新颖的神经网络架构，进一步优化了文本生成的多样性和一致性，为后续研究提供了重要基准，促进了自然语言生成技术的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集