five

Wikipedia Summary Dataset

收藏
github2024-03-08 更新2024-05-31 收录
下载链接:
https://github.com/tscheepers/Wikipedia-Summary-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了2017年9月提取的所有英文维基百科文章的标题和摘要(或介绍)。这些摘要更为简短、精确,适合在资源受限的情况下进行高效训练或在研究中使用。

This dataset comprises the titles and summaries (or introductions) of all English Wikipedia articles extracted in September 2017. These summaries are more concise and precise, making them suitable for efficient training under resource-constrained conditions or for use in research.
创建时间:
2017-10-02
原始信息汇总

数据集概述

数据集名称

  • Wikipedia Summary Dataset

数据集内容

  • 包含所有英文维基百科文章的标题和摘要(或介绍)。
  • 数据提取自2017年9月。

数据集特点

  • 与常规的维基百科转储不同,本数据集仅包含提取的摘要,而非完整的未处理页面内容。
  • 提供多种预处理版本,包括分词、小写化、去除标点、去除停用词和词干提取。

数据集文件

  • raw.tar.gz:原始数据,未进行任何预处理。
  • tokenized.tar.gz:已分词,未小写化。
  • lowercased.tar.gz:已分词并小写化。
  • without-punctuation.tar.gz:已分词、小写化并去除标点。
  • without-stop-words.tar.gz:已分词、小写化、去除标点并去除停用词。
  • stemmed.tar.gz:已分词、小写化、去除标点、去除停用词并进行词干提取。

数据集结构

  • 每个tarball包含两个文件:.txt.vocab
  • .txt文件每行代表一篇文章,包含标题和摘要,两者通过|||分隔。
  • .vocab文件包含词汇及其计数。

数据集构建

  • 使用维基百科API和TextExtracts扩展构建。
  • 通过download.pyprocess.py脚本处理数据。

使用建议

  • 建议不要直接使用官方维基百科API构建数据集,以减轻API负担。

引用信息

  • 如使用本数据集,请引用相关研究论文。
搜集汇总
数据集介绍
main_image_url
构建方式
Wikipedia Summary Dataset的构建过程基于Wikipedia API的调用,通过`page_id`逐页提取文章标题和摘要。为确保摘要的准确性和一致性,数据集构建脚本利用了TextExtracts扩展,该扩展能够生成简洁且定义明确的摘要。整个数据集的生成分为两个主要步骤:首先,使用`download.py`脚本从API中获取原始JSON数据并存储;随后,通过`process.py`脚本将这些数据整合为包含所有文章的`.txt`文件和词汇统计的`.vocab`文件。这一过程虽然耗时,但确保了数据的高质量和完整性。
使用方法
使用Wikipedia Summary Dataset时,研究者可根据需求选择不同的预处理版本进行下载。数据集以`.tar.gz`压缩包形式提供,解压后包含`.txt`和`.vocab`两个文件。`.txt`文件中的每一行代表一篇文章,标题和摘要以`|||`分隔,可直接用于训练或测试模型。若需创建小型测试数据集,建议从文件中随机采样而非直接分割。此外,研究者可利用`.vocab`文件中的词汇统计信息进行进一步分析。为减少对Wikipedia API的压力,建议仅在必要时使用官方API构建数据集,并严格遵守`maxlag=5`参数的限制。
背景与挑战
背景概述
Wikipedia Summary Dataset 是由 Thijs Scheepers 于2017年9月创建的一个专注于机器学习和自然语言处理研究的数据集。该数据集包含了英文维基百科所有文章的标题和摘要(或引言),旨在为研究人员提供一个简洁且定义明确的文本资源。与传统的维基百科数据转储不同,该数据集仅提取了文章的摘要部分,而非完整的页面内容,这使得它在资源受限的情况下能够更高效地用于模型训练。该数据集的构建基于维基百科的API,并利用了TextExtracts扩展来生成摘要,确保了数据的准确性和一致性。该数据集在词嵌入组合性研究等领域具有重要影响力,相关研究成果已在WWW等国际会议上发表。
当前挑战
Wikipedia Summary Dataset 在解决自然语言处理中的文本摘要和词嵌入组合性问题时面临多重挑战。首先,维基百科文章的多样性和复杂性使得摘要的提取和标准化处理变得困难,尤其是在保持语义完整性的同时进行文本压缩。其次,数据集的构建过程依赖于维基百科的API,这导致数据采集效率较低,且对公共API的频繁调用可能对其稳定性造成压力。此外,尽管数据集提供了多种预处理版本(如分词、去停用词等),但如何选择最适合特定任务的预处理方式仍是一个开放性问题。最后,数据集的规模虽然较大,但其覆盖的主题和语言风格可能限制了其在某些特定领域研究中的适用性。
常用场景
经典使用场景
Wikipedia Summary Dataset 在机器学习和自然语言处理领域中被广泛应用,尤其是在文本摘要和词向量训练中。由于其包含了大量英文维基百科文章的标题和摘要,研究者可以利用这些简洁且定义明确的内容进行高效的模型训练。该数据集特别适合那些需要在有限计算资源下进行大规模文本处理的场景,如文本分类、信息检索和语义分析等任务。
解决学术问题
该数据集解决了自然语言处理领域中文本摘要和词向量训练的诸多挑战。通过提供简洁且定义明确的摘要,研究者能够更高效地进行模型训练,避免了处理冗长文本的复杂性。此外,该数据集还支持词向量的组合性研究,帮助提升词嵌入模型的表现,从而在语义理解和文本生成等任务中取得更好的效果。
实际应用
在实际应用中,Wikipedia Summary Dataset 被广泛用于构建智能问答系统、自动摘要生成工具和语义搜索引擎。例如,企业可以利用该数据集训练模型,自动生成产品描述或新闻摘要,提升内容创作的效率。教育机构也可以利用该数据集开发智能教学助手,帮助学生快速获取知识点的核心内容。
数据集最近研究
最新研究方向
在自然语言处理领域,Wikipedia Summary Dataset为研究者提供了一个独特的资源,专注于维基百科文章的标题和摘要部分。这一数据集的最新研究方向集中在利用这些精炼的文本信息来提升机器学习模型的性能,特别是在词嵌入的组合性方面。通过分析这些摘要,研究者能够更深入地理解词汇之间的语义关系,从而改进模型的语义捕捉能力。此外,该数据集还被用于探索如何在资源受限的环境下进行高效的模型训练,这对于处理大规模文本数据的研究具有重要意义。随着深度学习技术的不断进步,Wikipedia Summary Dataset在推动自然语言处理技术的前沿研究中扮演着越来越重要的角色。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作