Ti-Ma/wikipedia_2018
收藏Hugging Face2024-04-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/wikipedia_2018
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于截至2018年12月31日的Wikipedia数据构建的。通过选择每年12月31日的最新修订版本,确保数据集反映了每年年底Wikipedia上最新的信息。数据集经过清理,去除了文件链接、强调、注释、缩进、HTML、引用等不需要的特征和属性。数据集适用于历时研究、历史LLM预训练以及需要严格时间划分数据的任务。
该数据集是基于截至2018年12月31日的Wikipedia数据构建的。通过选择每年12月31日的最新修订版本,确保数据集反映了每年年底Wikipedia上最新的信息。数据集经过清理,去除了文件链接、强调、注释、缩进、HTML、引用等不需要的特征和属性。数据集适用于历时研究、历史LLM预训练以及需要严格时间划分数据的任务。
提供机构:
Ti-Ma
原始信息汇总
数据集概述
数据集描述
本数据集是截至2018年12月31日的维基百科数据集。数据集包含了每年12月31日为止的最新版本文章。由于某些页面自目标日期以来未被编辑,因此一些修订版本可能追溯到几年前。这种方法确保了训练数据集反映了每年年底维基百科上可用的最新信息,提供了一个特定时间点的知识真实快照。
数据处理
数据集通过使用wiki-dump-reader工具进行清洗,去除了文件链接、强调、评论、缩进、HTML、参考等不必要特征和属性,最终输出干净的文本。
语言
- 语言(s): 英语
许可证
- 许可证: cc-by-sa-3.0
数据集结构
数据集以适合快速加载大型文件的格式保存,并与Huggingface数据集框架兼容。
使用场景
- 维基百科的历时研究
- 历史LLM预训练
- 任何需要严格数据时间分区的任务
偏差、风险和限制
数据集并非包含所有维基百科文章,部分文章可能对终端用户无用,因此可能需要对相关文章进行筛选以适应下游任务。
联系方式
- 联系邮箱: felix.drinkall@eng.ox.ac.uk



