Ti-Ma/wikipedia_2016
收藏Hugging Face2024-04-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/wikipedia_2016
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于Wikipedia的数据集,截至2016年12月31日。数据集包含了每年12月31日的最新修订版本,即使某些页面的修订可能早于目标日期,但这些页面在截止日期时被认为是当前版本。数据集通过特定的代码清理,移除了文件链接、强调、评论等不需要的元素。数据集主要用于历时研究、历史LLM预训练等需要严格时间划分的任务。
这是一个基于Wikipedia的数据集,截至2016年12月31日。数据集包含了每年12月31日的最新修订版本,即使某些页面的修订可能早于目标日期,但这些页面在截止日期时被认为是当前版本。数据集通过特定的代码清理,移除了文件链接、强调、评论等不需要的元素。数据集主要用于历时研究、历史LLM预训练等需要严格时间划分的任务。
提供机构:
Ti-Ma
原始信息汇总
数据集卡片 for Dataset Name
数据集详情
数据集描述
这是一个截至“2016-12-31”的维基百科数据集。维基媒体定期发布维基百科的转储,每个转储包含文章的修订历史。我们首先定义了相关的修订,然后提取了文章信息。具体来说,我们为每年的12月31日选择了最近的修订。因此,我们的数据集中的一些修订日期早于目标日期,因为这些页面自那时起未被编辑。尽管包含较旧的修订可能最初看起来有问题,但重要的是要注意这些是截至截止日期的维基百科页面的现有版本。这些页面的内容在当时被认为是足够当前的。这种方法确保我们的训练数据集反映了每年年底维基百科上可用的最新信息,提供了一个特定时间点的知识真实快照。
每个修订确定后,我们使用来自 extit{wiki-dump-reader}的代码清理页面,该代码解析页面并输出干净文本。在清理阶段,删除了许多不需要的特征和属性:文件链接、强调、评论、缩进、HTML、参考等。
- 语言(s): 英语
- 许可证: cc-by-sa-3.0
用途
维基百科的历时研究、历史LLM预训练,以及任何需要严格时间分区的数据任务。
数据集结构
数据集以适合快速加载大型文件的格式保存,并与Huggingface数据集框架兼容。
偏差、风险和限制
此数据集确实包含所有维基百科文章,其中一些可能对最终用户无用。下游任务可能需要过滤相关文章。
数据集卡片联系
felix.drinkall@eng.ox.ac.uk



