IDN-Sum
收藏github2024-05-15 更新2024-05-31 收录
下载链接:
https://github.com/AshwathyTR/IDN-Sum
下载链接
链接失效反馈官方服务:
资源简介:
IDN-Sum是一个用于交互式数字叙事提取文本摘要的新数据集,包含用于生成游戏过程的代码和数据,以及用于提取摘要的注释。
IDN-Sum is a novel dataset designed for interactive digital narrative text summarization. It encompasses code and data utilized in the generation of gaming processes, along with annotations for extracting summaries.
创建时间:
2022-05-15
原始信息汇总
数据集概述
数据集名称
- IDN-Sum
数据集目的
- 用于交互式数字叙事提取文本摘要的研究。
数据集生成方法
- 使用ReaderBot模拟游戏《Before the Storm》和《Wolf Among Us》的游玩过程,生成数据。
- 通过Python脚本进行数据处理,包括分割剧集、清理数据、准备数据格式等。
数据集内容
- 包含从两部游戏中随机游玩生成的8个剧集的10,000个文档。
- 文档通过自动对齐算法与粉丝提供的摘要进行标注。
数据集支持的游戏机制
- 游戏中的选择与后果
- 变量计数器,如《Before the Storm》中的浪漫分数
- 《Before the Storm》中的反驳对话
- 场景标记
- 《Wolf Among Us》中场景的顺序
- 《Wolf Among Us》中的可选交互
数据集局限性
- 模拟游玩不完全反映游戏所有机制。
- 场景顺序仅考虑主要场景。
- 忽略了一些游戏中的小机制。
- 某些实现细节不明确,可能导致小对话变化被忽略。
- 《Wolf Among Us》的脚本不完整。
数据集使用模型
- 使用TransformerSum和SummaRuNNer的脚本进行模型训练。
数据集结果
- 使用TransformerSum和SummaRuNNer的脚本进行预测,并通过SummaRuNNer的评估脚本计算ROUGE分数。
- 结果包括随机n句、前n句和TextRank等基线比较。
数据集引用信息
- 引用论文:Revi, Ashwathy T., Stuart E. Middleton, and David E. Millard. "IDN-Sum: A New Dataset for Interactive Digital Narrative Extractive Text Summarisation." Proceedings of The Workshop on Automatic Summarization for Creative Writing. 2022.
搜集汇总
数据集介绍

构建方式
IDN-Sum数据集的构建基于两部互动数字叙事游戏《Before the Storm》和《Wolf Among Us》的随机游戏过程。通过ReaderBot模拟器生成多样化的游戏过程,确保每个选择组合的最小重叠,从而捕捉游戏中的主要情节和互动元素。生成的游戏过程随后通过自动对齐算法与粉丝提供的摘要进行标注,形成最终的数据集。
特点
IDN-Sum数据集的显著特点在于其专注于互动数字叙事文本的摘要生成,涵盖了复杂的互动元素和情节发展。数据集包含10,000个文档,涵盖两部游戏的8个章节,支持多种游戏机制的模拟,如选择与后果、计数器、对话等。此外,数据集的标注方法结合了自动对齐与人工摘要,确保了数据的多样性和准确性。
使用方法
使用IDN-Sum数据集时,用户可通过运行ReaderBot生成游戏过程,并使用提供的脚本对生成的数据进行分割、清理和格式化。数据集支持多种格式,便于与现有摘要生成模型(如TransformerSum和SummaRuNNer)结合使用。用户还可直接从Zenodo平台下载预处理数据,简化数据准备过程。
背景与挑战
背景概述
IDN-Sum数据集是由Ashwathy T. Revi、Stuart E. Middleton和David E. Millard于2022年创建的,专门用于交互式数字叙事(Interactive Digital Narrative, IDN)的抽取式文本摘要研究。该数据集通过模拟《Before the Storm》和《Wolf Among Us》两款游戏的随机游玩过程生成,包含10,000个文档,旨在为训练和测试IDN文本摘要算法提供丰富的资源。IDN-Sum的创建填补了该领域数据集的空白,为研究者提供了一个独特的平台,以探索交互元素与叙事结构对文本摘要模型的影响。
当前挑战
IDN-Sum数据集面临的主要挑战包括:1) 如何准确捕捉交互式叙事中的关键情节和选择,确保摘要能够反映出玩家决策对故事发展的影响;2) 在构建过程中,模拟游戏机制的复杂性,如选择与后果的关联、场景顺序等,导致部分游戏细节无法完全还原;3) 数据集的标注依赖于自动对齐算法,可能遗漏某些对话变化或情节连接,影响摘要的准确性。此外,数据集的生成假设了玩家在某些情境下只能做出单一选择,这与实际游戏中的多选项交互存在差异,进一步增加了模型训练的复杂性。
常用场景
经典使用场景
IDN-Sum数据集在交互式数字叙事文本摘要领域展现了其经典应用场景。该数据集通过模拟游戏《Before the Storm》和《Wolf Among Us》的多种游戏进程,生成了丰富的文本数据,特别适用于提取式文本摘要任务。研究者可以利用这些数据训练和测试模型,以捕捉游戏中的关键情节和交互元素,从而生成高质量的摘要。
解决学术问题
IDN-Sum数据集解决了交互式数字叙事文本摘要中的关键学术问题。传统文本摘要模型难以处理叙事中的交互性和复杂情节,而IDN-Sum通过提供包含交互元素的文本数据,帮助研究者开发能够捕捉这些复杂性的模型。这不仅提升了摘要的准确性,还为未来在交互式叙事领域的研究提供了新的方向。
衍生相关工作
IDN-Sum数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究者开发了新的提取式摘要算法,以更好地处理交互式叙事中的复杂性。此外,还有研究探讨了如何将这些技术应用于其他类型的交互式文本,如虚拟现实中的叙事体验。这些工作不仅扩展了IDN-Sum的应用范围,还推动了交互式文本处理技术的发展。
以上内容由遇见数据集搜集并总结生成



