Wikipedia Summary Dataset

github2024-03-08 更新2024-05-31 收录

下载链接：

https://github.com/tscheepers/Wikipedia-Summary-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了2017年9月提取的所有英文维基百科文章的标题和摘要（或介绍）。这些摘要更为简短、精确，适合在资源受限的情况下进行高效训练或在研究中使用。

This dataset comprises the titles and summaries (or introductions) of all English Wikipedia articles extracted in September 2017. These summaries are more concise and precise, making them suitable for efficient training under resource-constrained conditions or for use in research.

创建时间：

2017-10-02

原始信息汇总

数据集概述

数据集名称

Wikipedia Summary Dataset

数据集内容

包含所有英文维基百科文章的标题和摘要（或介绍）。
数据提取自2017年9月。

数据集特点

与常规的维基百科转储不同，本数据集仅包含提取的摘要，而非完整的未处理页面内容。
提供多种预处理版本，包括分词、小写化、去除标点、去除停用词和词干提取。

数据集文件

raw.tar.gz：原始数据，未进行任何预处理。
tokenized.tar.gz：已分词，未小写化。
lowercased.tar.gz：已分词并小写化。
without-punctuation.tar.gz：已分词、小写化并去除标点。
without-stop-words.tar.gz：已分词、小写化、去除标点并去除停用词。
stemmed.tar.gz：已分词、小写化、去除标点、去除停用词并进行词干提取。

数据集结构

每个tarball包含两个文件：.txt和.vocab。
.txt文件每行代表一篇文章，包含标题和摘要，两者通过|||分隔。
.vocab文件包含词汇及其计数。

数据集构建

使用维基百科API和TextExtracts扩展构建。
通过download.py和process.py脚本处理数据。

使用建议

建议不要直接使用官方维基百科API构建数据集，以减轻API负担。

引用信息

如使用本数据集，请引用相关研究论文。

搜集汇总

数据集介绍

构建方式

Wikipedia Summary Dataset的构建过程基于Wikipedia API的调用，通过`page_id`逐页提取文章标题和摘要。为确保摘要的准确性和一致性，数据集构建脚本利用了TextExtracts扩展，该扩展能够生成简洁且定义明确的摘要。整个数据集的生成分为两个主要步骤：首先，使用`download.py`脚本从API中获取原始JSON数据并存储；随后，通过`process.py`脚本将这些数据整合为包含所有文章的`.txt`文件和词汇统计的`.vocab`文件。这一过程虽然耗时，但确保了数据的高质量和完整性。

使用方法

使用Wikipedia Summary Dataset时，研究者可根据需求选择不同的预处理版本进行下载。数据集以`.tar.gz`压缩包形式提供，解压后包含`.txt`和`.vocab`两个文件。`.txt`文件中的每一行代表一篇文章，标题和摘要以`|||`分隔，可直接用于训练或测试模型。若需创建小型测试数据集，建议从文件中随机采样而非直接分割。此外，研究者可利用`.vocab`文件中的词汇统计信息进行进一步分析。为减少对Wikipedia API的压力，建议仅在必要时使用官方API构建数据集，并严格遵守`maxlag=5`参数的限制。

背景与挑战

背景概述

Wikipedia Summary Dataset 是由 Thijs Scheepers 于2017年9月创建的一个专注于机器学习和自然语言处理研究的数据集。该数据集包含了英文维基百科所有文章的标题和摘要（或引言），旨在为研究人员提供一个简洁且定义明确的文本资源。与传统的维基百科数据转储不同，该数据集仅提取了文章的摘要部分，而非完整的页面内容，这使得它在资源受限的情况下能够更高效地用于模型训练。该数据集的构建基于维基百科的API，并利用了TextExtracts扩展来生成摘要，确保了数据的准确性和一致性。该数据集在词嵌入组合性研究等领域具有重要影响力，相关研究成果已在WWW等国际会议上发表。

当前挑战

Wikipedia Summary Dataset 在解决自然语言处理中的文本摘要和词嵌入组合性问题时面临多重挑战。首先，维基百科文章的多样性和复杂性使得摘要的提取和标准化处理变得困难，尤其是在保持语义完整性的同时进行文本压缩。其次，数据集的构建过程依赖于维基百科的API，这导致数据采集效率较低，且对公共API的频繁调用可能对其稳定性造成压力。此外，尽管数据集提供了多种预处理版本（如分词、去停用词等），但如何选择最适合特定任务的预处理方式仍是一个开放性问题。最后，数据集的规模虽然较大，但其覆盖的主题和语言风格可能限制了其在某些特定领域研究中的适用性。

常用场景

经典使用场景

Wikipedia Summary Dataset 在机器学习和自然语言处理领域中被广泛应用，尤其是在文本摘要和词向量训练中。由于其包含了大量英文维基百科文章的标题和摘要，研究者可以利用这些简洁且定义明确的内容进行高效的模型训练。该数据集特别适合那些需要在有限计算资源下进行大规模文本处理的场景，如文本分类、信息检索和语义分析等任务。

解决学术问题

该数据集解决了自然语言处理领域中文本摘要和词向量训练的诸多挑战。通过提供简洁且定义明确的摘要，研究者能够更高效地进行模型训练，避免了处理冗长文本的复杂性。此外，该数据集还支持词向量的组合性研究，帮助提升词嵌入模型的表现，从而在语义理解和文本生成等任务中取得更好的效果。

实际应用

在实际应用中，Wikipedia Summary Dataset 被广泛用于构建智能问答系统、自动摘要生成工具和语义搜索引擎。例如，企业可以利用该数据集训练模型，自动生成产品描述或新闻摘要，提升内容创作的效率。教育机构也可以利用该数据集开发智能教学助手，帮助学生快速获取知识点的核心内容。

数据集最近研究