Mythos

Name: Mythos
Creator: 麻省大学阿默斯特分校，马里兰大学帕克分校
Published: 2025-02-19 00:45:41
License: 暂无描述

arXiv2025-02-19 更新2025-02-27 收录

下载链接：

https://github.com/Nish-19/Persona-Story-Gen

下载链接

链接失效反馈

官方服务：

资源简介：

Mythos数据集是由麻省大学阿默斯特分校和马里兰大学帕克分校构建的，包含64位作者创作的590个故事，这些故事来源于Reddit、AO3、Storium、《叙事杂志》和《纽约客》等五个不同的平台。该数据集旨在支持作者风格分析和个人化故事生成评价，通过将每个作者的作品按时间顺序分为两部分，一部分用于推断写作特征，另一部分用于评估LLM模仿作者独特写作行为的能力。

The Mythos Dataset was constructed by the University of Massachusetts Amherst and the University of Maryland, College Park. It contains 590 stories created by 64 authors, sourced from five distinct platforms: Reddit, AO3, Storium, Narrative Magazine, and The New Yorker. This dataset aims to support author style analysis and personalized story generation evaluation. Specifically, the works of each author are split into two chronological subsets: one for inferring writing characteristics, and the other for evaluating the ability of LLMs to mimic the author's unique writing behaviors.

提供机构：

麻省大学阿默斯特分校，马里兰大学帕克分校

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

Mythos数据集的构建基于一个新颖的两阶段个性化故事生成流程。首先，该流程从作者过去的作品中推断出其隐含的故事写作特征，并将这些特征组织成一个名为“作者写作表”的结构，该结构受叙事理论的启发。然后，第二阶段使用该表来模拟作者的个性，通过定制的人物描述和个性化的故事写作规则来实现。为了验证这一方法，研究人员构建了Mythos数据集，其中包含了来自64位作者、涵盖5个不同来源的590个故事，这些来源反映了多样化的故事写作环境。通过与非个性化基线方法的直接比较，研究证明了该流程在生成高质量个性化故事方面的有效性。

特点

Mythos数据集的特点在于其独特性，它是第一个识别并连接同一作者所写多个故事的数据集。该数据集涵盖了来自Reddit、AO3、Storium、Narrative Magazine和New Yorker等五个不同来源的故事，这些来源的故事写作环境各异，为研究个性化故事生成提供了丰富的数据基础。此外，Mythos数据集将每位作者的作品按时间顺序分为两部分：较早的“分析集”用于推断其写作特征，而较晚的“生成集”用于评估LLMs是否能模仿其独特的写作行为。

使用方法

使用Mythos数据集的方法包括两个阶段：第一阶段是构建“作者写作表”，该表通过对比作者的作品和LLM生成的平均故事来捕获作者的写作特征。第二阶段是利用“作者写作表”来生成个性化故事，通过人物描述和故事规则作为用户约束来指导LLMs的生成。研究人员还提供了自动化评估和人工评估的方法，以评估个性化故事的质量和与作者真实作品的相似度。此外，该研究还讨论了数据集的局限性，例如作者历史数据量有限以及“作者写作表”的召回率等问题，并提出了未来研究的方向，包括多智能体系统和LLMs微调等。

背景与挑战

背景概述

Mythos 数据集的创建旨在推动个性化故事生成的技术发展。该数据集由来自64位作者、590个故事组成，涵盖了包括Reddit、AO3、Storium、Narrative Magazine和New Yorker在内的5个不同的故事创作环境，反映了多样化的故事创作背景。该数据集的独特之处在于，它将同一作者的多篇故事进行了关联，从而为研究个性化故事生成提供了丰富的素材。Mythos 数据集的构建旨在支持作者分析和个性化故事生成评估，并通过一个两阶段流程实现了个性化故事生成：首先，从作者的过往作品中推断出作者的写作特点，并将其整理成一份作者写作表；其次，利用这份写作表来模拟作者的个性，并通过定制的人物描述和个性化的故事写作规则来生成故事。Mythos 数据集的创建为个性化故事生成技术的研究和应用提供了重要的支持，并为相关领域的研究人员提供了宝贵的资源。

当前挑战

Mythos 数据集在个性化故事生成方面面临一些挑战。首先，数据集的作者历史长度有限，这可能会限制对作者写作特点的准确推断，从而影响个性化故事生成的效果。其次，作者写作表的召回率尚未得到评估，即无法确定是否捕捉到了作者的所有写作特点。此外，由于长文本的评估仍然具有挑战性，特别是对于涉及深层含义和主观性的创造性输出，因此需要进一步探索自动评估方法。此外，未来研究可以探索多智能体系统和微调LLM，以提高个性化故事生成的效果。最后，数据集的规模有限，且作者身份可能难以完全匿名化，这可能需要进一步的数据收集和隐私保护策略。

常用场景

经典使用场景

Mythos数据集在个性化故事生成领域具有重要作用，其经典使用场景包括个性化写作辅助、教育领域的个性化反馈以及角色扮演游戏和聊天机器人的个性化输出。通过构建作者写作表，该数据集能够帮助用户克服写作障碍，提升写作效率，并使第二语言学习者更好地适应新语言。此外，Mythos数据集还为研究者提供了一个评估个性化故事生成方法的平台。

衍生相关工作

Mythos数据集的构建和研究成果衍生了多个相关经典工作。例如，基于作者写作表的个性化故事生成方法为个性化文本生成领域提供了新的思路。此外，该数据集还为研究者提供了一个评估个性化故事生成方法的平台，推动了该领域的研究进展。未来，基于Mythos数据集的研究有望在个性化文本生成、教育技术、虚拟角色设计等领域取得更多突破。

数据集最近研究