Shmoop Corpus

github2023-10-06 更新2024-05-31 收录

下载链接：

https://github.com/achaudhury/shmoop-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Shmoop Corpus是一个包含故事及其松散对应摘要的数据集，用于研究目的。数据集包括故事和摘要，两者按段落分割，并提供了人工对齐信息，以便研究者分析故事与摘要之间的关系。

The Shmoop Corpus is a dataset comprising stories and their loosely corresponding summaries, designed for research purposes. The dataset includes both stories and summaries, segmented by paragraphs, and provides manually aligned information to facilitate researchers in analyzing the relationship between the stories and their summaries.

创建时间：

2019-07-13

原始信息汇总

The Shmoop Corpus 概述

数据集描述

名称: The Shmoop Corpus
类型: 包含故事及其松散对齐摘要的数据集
作者: A. Chaudhury, M. Tapaswi, S. W. Kim, S. Fidler
发表: arXiv: 1912.13082

数据集内容

文件结构:
- summaries: 包含故事的摘要，按段落分割。
- stories: 包含故事文本，按段落分割。
- manual_alignments: 包含验证集中摘要与故事段落的对齐信息。
其他文件:
- get_summaries.py: 用于从Shmoop下载摘要的脚本。
- list_of_works.txt: 包含数据集中包含的作品列表及手动注释的作品。
- sectioned_works.csv: 包含用于下载的URL。

下载与使用

下载步骤:
1. 克隆此仓库。
2. 下载并解压 stories.zip 和 manual_alignments.zip。
3. 联系 support@shmoop.com 请求使用Shmoop摘要进行研究。
4. 运行 get_summaries.py 下载摘要。
依赖:
- python3.x
- bs4 (用于HTML页面解析)
- nltk (用于分词)
- tqdm (用于显示下载状态)

示例

摘要与原文对齐示例:
- 摘要S3: Quince宣布Bottom是甜美的声音的情人，Flute指出他指的是“paragon”。
- 原文D7-D8: QUINCE和FLUTE的对话，讨论“paramour”和“paragon”。
- 摘要S4: Snug宣布Duke从寺庙回来，Flute哀叹如果他们能表演，他们将是富有的人。
- 原文D9-D11: Snug和Flute的对话，讨论Duke的赏赐和表演的可能性。

搜集汇总

数据集介绍

构建方式

Shmoop Corpus的构建过程体现了对文学文本与摘要之间对齐关系的深入研究。该数据集通过从Shmoop网站获取故事及其摘要，并辅以手动对齐的方式，确保了数据的准确性和可靠性。具体而言，数据集包含两个主要部分：故事和摘要，分别存储于`stories`和`summaries`目录中。此外，`manual_alignments`目录中提供了验证集的段落对齐信息，每一行明确标注了摘要段落与故事段落之间的对应关系。这种构建方式不仅为自然语言处理任务提供了高质量的数据支持，还为研究文本摘要对齐问题奠定了坚实的基础。

特点

Shmoop Corpus的显著特点在于其独特的段落对齐机制。数据集中的每一篇故事都配备了详细的摘要，并且通过手动标注的方式，精确地记录了摘要段落与原文段落之间的对应关系。这种对齐信息为研究文本摘要生成、对齐模型训练等任务提供了宝贵的资源。此外，数据集涵盖了多种文学作品，包括莎士比亚的经典戏剧，进一步丰富了其多样性和代表性。通过这种结构化的对齐数据，研究者可以更深入地探索文本与摘要之间的语义关联，推动自然语言处理领域的发展。

使用方法

使用Shmoop Corpus时，首先需要克隆其GitHub仓库并下载相关的压缩文件，包括故事和手动对齐数据。随后，通过运行`get_summaries.py`脚本，可以从Shmoop网站获取最新的摘要内容。数据集的使用依赖于Python 3.x环境，并需要安装`bs4`、`nltk`和`tqdm`等库以支持数据解析和处理。研究者可以通过分析`manual_alignments`目录中的对齐信息，验证或训练文本对齐模型。此外，数据集中的`list_of_works.txt`和`sectioned_works.csv`文件提供了详细的文学作品列表和下载链接，便于进一步扩展研究范围。

背景与挑战

背景概述

Shmoop Corpus数据集由多伦多大学的A. Chaudhury、M. Tapaswi、S. W. Kim和S. Fidler等研究人员于2019年创建，旨在为自然语言处理领域提供一种包含故事与摘要松散对齐的数据资源。该数据集的核心研究问题在于如何通过故事与摘要之间的对齐关系，推动文本摘要生成、阅读理解以及跨模态对齐等任务的发展。Shmoop Corpus的构建基于Shmoop教育平台上的文学作品及其摘要，涵盖了丰富的文学内容，为研究者提供了一个独特的实验平台。该数据集在文本对齐和摘要生成领域具有重要的影响力，为相关研究提供了宝贵的基准数据。

当前挑战

Shmoop Corpus在解决文本对齐与摘要生成问题时面临多重挑战。首先，故事与摘要之间的对齐关系并非严格一一对应，而是松散且复杂的，这对模型的理解和推理能力提出了较高要求。其次，数据集的构建过程中，研究人员需要手动对齐故事与摘要的段落，这一过程耗时且容易引入人为误差。此外，由于Shmoop平台上的内容可能随时间变化，数据集的更新与维护也成为一个潜在问题。这些挑战不仅影响了数据集的构建质量，也对后续研究的模型性能提出了更高的要求。

常用场景

经典使用场景

Shmoop Corpus数据集在自然语言处理领域中被广泛用于文本摘要与对齐任务的研究。该数据集包含了大量文学作品及其对应的摘要，且摘要与原文段落之间存在手动对齐信息，为研究者提供了一个理想的实验平台。通过该数据集，研究者可以深入探讨如何自动生成高质量的文本摘要，并研究摘要与原文之间的语义对齐问题。

衍生相关工作

Shmoop Corpus数据集催生了一系列经典研究工作，尤其是在文本摘要与对齐领域。基于该数据集，研究者提出了多种先进的深度学习模型，如基于注意力机制的摘要生成模型和跨段落对齐算法。这些工作不仅推动了自然语言处理技术的发展，还为后续研究提供了重要的理论基础与实验数据，进一步拓展了该数据集的应用范围与影响力。

数据集最近研究