Ti-Ma/wikipedia_2014
收藏Hugging Face2024-04-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/wikipedia_2014
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于Wikipedia的数据集,截止日期为2014年12月31日。数据集包含了每年12月31日的最新修订版本,即使某些页面的修订日期早于目标日期,这些页面在截止日期时被认为是当前版本。数据集经过清理,移除了文件链接、强调、评论、缩进、HTML、引用等不需要的特征和属性。数据集适用于历时研究、历史LLM预训练等任务。
这是一个基于Wikipedia的数据集,截止日期为2014年12月31日。数据集包含了每年12月31日的最新修订版本,即使某些页面的修订日期早于目标日期,这些页面在截止日期时被认为是当前版本。数据集经过清理,移除了文件链接、强调、评论、缩进、HTML、引用等不需要的特征和属性。数据集适用于历时研究、历史LLM预训练等任务。
提供机构:
Ti-Ma
原始信息汇总
数据集概述
数据集名称
Dataset Name
数据集描述
本数据集为截至2014年12月31日的维基百科数据集,包含每年的最新修订版本。数据集中的某些修订版本可能早于目标日期,这是因为这些页面自那时起未被编辑。此方法确保训练数据集反映每年年底维基百科上可用的最新信息,提供特定时间点的知识快照。
数据处理
数据集通过使用wiki-dump-reader工具进行清洗,去除了文件链接、强调、评论、缩进、HTML、参考等不必要特征和属性。
语言
- 语言(s): 英语
许可
- 许可: cc-by-sa-3.0
用途
- 用于维基百科的历时研究、历史语言模型预训练以及任何需要严格时间分区的数据任务。
数据集结构
数据集以适合快速加载大型文件的格式保存,并与Huggingface数据集框架兼容。
偏差、风险和限制
数据集包含所有维基百科文章,其中一些可能对最终用户无用。对于下游任务,可能需要过滤相关文章。



