IDN-Sum

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/AshwathyTR/IDN-Sum

下载链接

链接失效反馈

官方服务：

资源简介：

IDN-Sum是一个用于交互式数字叙事提取文本摘要的新数据集，包含用于生成游戏过程的代码和数据，以及用于提取摘要的注释。

IDN-Sum is a novel dataset designed for interactive digital narrative text summarization. It encompasses code and data utilized in the generation of gaming processes, along with annotations for extracting summaries.

创建时间：

2022-05-15

原始信息汇总

数据集概述

数据集名称

IDN-Sum

数据集目的

用于交互式数字叙事提取文本摘要的研究。

数据集生成方法

使用ReaderBot模拟游戏《Before the Storm》和《Wolf Among Us》的游玩过程，生成数据。
通过Python脚本进行数据处理，包括分割剧集、清理数据、准备数据格式等。

数据集内容

包含从两部游戏中随机游玩生成的8个剧集的10,000个文档。
文档通过自动对齐算法与粉丝提供的摘要进行标注。

数据集支持的游戏机制

游戏中的选择与后果
变量计数器，如《Before the Storm》中的浪漫分数
《Before the Storm》中的反驳对话
场景标记
《Wolf Among Us》中场景的顺序
《Wolf Among Us》中的可选交互

数据集局限性

模拟游玩不完全反映游戏所有机制。
场景顺序仅考虑主要场景。
忽略了一些游戏中的小机制。
某些实现细节不明确，可能导致小对话变化被忽略。
《Wolf Among Us》的脚本不完整。

数据集使用模型

使用TransformerSum和SummaRuNNer的脚本进行模型训练。

数据集结果

使用TransformerSum和SummaRuNNer的脚本进行预测，并通过SummaRuNNer的评估脚本计算ROUGE分数。
结果包括随机n句、前n句和TextRank等基线比较。

数据集引用信息

引用论文：Revi, Ashwathy T., Stuart E. Middleton, and David E. Millard. "IDN-Sum: A New Dataset for Interactive Digital Narrative Extractive Text Summarisation." Proceedings of The Workshop on Automatic Summarization for Creative Writing. 2022.

搜集汇总

数据集介绍

构建方式

IDN-Sum数据集的构建基于两部互动数字叙事游戏《Before the Storm》和《Wolf Among Us》的随机游戏过程。通过ReaderBot模拟器生成多样化的游戏过程，确保每个选择组合的最小重叠，从而捕捉游戏中的主要情节和互动元素。生成的游戏过程随后通过自动对齐算法与粉丝提供的摘要进行标注，形成最终的数据集。

特点

IDN-Sum数据集的显著特点在于其专注于互动数字叙事文本的摘要生成，涵盖了复杂的互动元素和情节发展。数据集包含10,000个文档，涵盖两部游戏的8个章节，支持多种游戏机制的模拟，如选择与后果、计数器、对话等。此外，数据集的标注方法结合了自动对齐与人工摘要，确保了数据的多样性和准确性。

使用方法

使用IDN-Sum数据集时，用户可通过运行ReaderBot生成游戏过程，并使用提供的脚本对生成的数据进行分割、清理和格式化。数据集支持多种格式，便于与现有摘要生成模型（如TransformerSum和SummaRuNNer）结合使用。用户还可直接从Zenodo平台下载预处理数据，简化数据准备过程。

背景与挑战

背景概述

IDN-Sum数据集是由Ashwathy T. Revi、Stuart E. Middleton和David E. Millard于2022年创建的，专门用于交互式数字叙事（Interactive Digital Narrative, IDN）的抽取式文本摘要研究。该数据集通过模拟《Before the Storm》和《Wolf Among Us》两款游戏的随机游玩过程生成，包含10,000个文档，旨在为训练和测试IDN文本摘要算法提供丰富的资源。IDN-Sum的创建填补了该领域数据集的空白，为研究者提供了一个独特的平台，以探索交互元素与叙事结构对文本摘要模型的影响。

当前挑战

IDN-Sum数据集面临的主要挑战包括：1) 如何准确捕捉交互式叙事中的关键情节和选择，确保摘要能够反映出玩家决策对故事发展的影响；2) 在构建过程中，模拟游戏机制的复杂性，如选择与后果的关联、场景顺序等，导致部分游戏细节无法完全还原；3) 数据集的标注依赖于自动对齐算法，可能遗漏某些对话变化或情节连接，影响摘要的准确性。此外，数据集的生成假设了玩家在某些情境下只能做出单一选择，这与实际游戏中的多选项交互存在差异，进一步增加了模型训练的复杂性。

常用场景

经典使用场景

IDN-Sum数据集在交互式数字叙事文本摘要领域展现了其经典应用场景。该数据集通过模拟游戏《Before the Storm》和《Wolf Among Us》的多种游戏进程，生成了丰富的文本数据，特别适用于提取式文本摘要任务。研究者可以利用这些数据训练和测试模型，以捕捉游戏中的关键情节和交互元素，从而生成高质量的摘要。

解决学术问题

IDN-Sum数据集解决了交互式数字叙事文本摘要中的关键学术问题。传统文本摘要模型难以处理叙事中的交互性和复杂情节，而IDN-Sum通过提供包含交互元素的文本数据，帮助研究者开发能够捕捉这些复杂性的模型。这不仅提升了摘要的准确性，还为未来在交互式叙事领域的研究提供了新的方向。

衍生相关工作

IDN-Sum数据集的发布催生了一系列相关研究工作。例如，基于该数据集，研究者开发了新的提取式摘要算法，以更好地处理交互式叙事中的复杂性。此外，还有研究探讨了如何将这些技术应用于其他类型的交互式文本，如虚拟现实中的叙事体验。这些工作不仅扩展了IDN-Sum的应用范围，还推动了交互式文本处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集