Ti-Ma/wikipedia_2021
收藏Hugging Face2024-04-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/wikipedia_2021
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于Wikipedia的数据集,截至2021年12月31日。WikiMedia定期发布Wikipedia的转储文件,每个文件包含文章的历史修订记录。我们首先定义了相关的修订版本,然后提取文章信息。具体来说,我们选择每年12月31日的最新修订版本。因此,数据集中的一些修订版本可能追溯到几年前,因为这些页面自那以后未被编辑。尽管这些较旧的修订版本可能看起来有问题,但需要注意的是,这些是截至截止日期时Wikipedia页面的现有版本。这些页面的内容在当时被认为是足够新的。这种方法确保我们的训练数据集反映了每年年底Wikipedia上最新的信息,提供了特定时间点的知识快照。一旦确定了每个修订版本,我们使用特定的代码清理页面,移除了文件链接、强调、评论、缩进、HTML、引用等不必要的元素。
这是一个基于Wikipedia的数据集,截至2021年12月31日。WikiMedia定期发布Wikipedia的转储文件,每个文件包含文章的历史修订记录。我们首先定义了相关的修订版本,然后提取文章信息。具体来说,我们选择每年12月31日的最新修订版本。因此,数据集中的一些修订版本可能追溯到几年前,因为这些页面自那以后未被编辑。尽管这些较旧的修订版本可能看起来有问题,但需要注意的是,这些是截至截止日期时Wikipedia页面的现有版本。这些页面的内容在当时被认为是足够新的。这种方法确保我们的训练数据集反映了每年年底Wikipedia上最新的信息,提供了特定时间点的知识快照。一旦确定了每个修订版本,我们使用特定的代码清理页面,移除了文件链接、强调、评论、缩进、HTML、引用等不必要的元素。
提供机构:
Ti-Ma
原始信息汇总
数据集概述
数据集名称
Dataset Name
数据集描述
这是一个截至2021年12月31日的维基百科数据集。数据集包含了每年的最新修订版本,确保了数据集反映的是每年年底维基百科上最新的信息。数据集通过wiki-dump-reader工具进行清洗,去除了文件链接、强调、评论、缩进、HTML、参考等不必要的内容。
语言
英语
许可证
cc-by-sa-3.0
用途
- 维基百科历时研究
- 历史语言模型预训练
- 需要严格数据时间分区的任务
数据集结构
数据集采用适合快速加载大文件的格式,并与Huggingface数据集框架兼容。
偏差、风险和限制
数据集包含所有维基百科文章,部分可能对终端用户无用,可能需要对相关文章进行筛选以适应下游任务。
数据集联系人
felix.drinkall@eng.ox.ac.uk



