five

Ti-Ma/wikipedia_2013

收藏
Hugging Face2024-04-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/wikipedia_2013
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于Wikipedia的数据集,截至2013年12月31日。WikiMedia定期发布Wikipedia的转储文件,每个文件包含文章的修订历史。我们首先定义了相关修订,然后提取文章信息。具体来说,我们选择了每年12月31日的最新修订版本。因此,数据集中一些修订可能追溯到目标日期的几年前,因为这些页面自那以后未被编辑过。虽然这些较旧的修订最初可能看起来有问题,但需要注意的是,这些是截至截止日期的Wikipedia页面的现有版本。这些页面的内容在当时被认为是足够新的。这种方法确保我们的训练数据集反映了每年年底Wikipedia上最新的信息,提供了特定时间点的知识快照。一旦确定了每个修订,我们使用wiki-dump-reader的代码清理页面,该代码解析页面并输出干净的文本。在清理阶段,去除了许多不需要的特征和属性:文件链接、强调、评论、缩进、HTML、引用等。

这是一个基于Wikipedia的数据集,截至2013年12月31日。WikiMedia定期发布Wikipedia的转储文件,每个文件包含文章的修订历史。我们首先定义了相关修订,然后提取文章信息。具体来说,我们选择了每年12月31日的最新修订版本。因此,数据集中一些修订可能追溯到目标日期的几年前,因为这些页面自那以后未被编辑过。虽然这些较旧的修订最初可能看起来有问题,但需要注意的是,这些是截至截止日期的Wikipedia页面的现有版本。这些页面的内容在当时被认为是足够新的。这种方法确保我们的训练数据集反映了每年年底Wikipedia上最新的信息,提供了特定时间点的知识快照。一旦确定了每个修订,我们使用wiki-dump-reader的代码清理页面,该代码解析页面并输出干净的文本。在清理阶段,去除了许多不需要的特征和属性:文件链接、强调、评论、缩进、HTML、引用等。
提供机构:
Ti-Ma
原始信息汇总

数据集概述

数据集名称

Dataset Name

数据集描述

本数据集是截至2013年12月31日的维基百科数据集。数据集包含了每年的最后一天的最新版本文章。这些文章可能包含多年前的修订版本,因为这些页面自那时起未被编辑。数据集通过使用wiki-dump-reader工具进行清理,移除了文件链接、强调、评论、缩进、HTML、参考等不必要的内容。

语言

英语

许可证

cc-by-sa-3.0

用途

  • 维基百科的历时研究
  • 历史语言模型预训练
  • 需要严格时间分区的数据任务

数据集结构

数据集以适合快速加载大型文件的格式保存,并与Huggingface数据集框架兼容。

偏差、风险和局限性

数据集包含所有维基百科文章,其中一些可能对终端用户无用。对于下游任务,可能需要过滤相关文章。

数据集联系人

felix.drinkall@eng.ox.ac.uk

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作