five

Ti-Ma/wikipedia_2012

收藏
Hugging Face2024-04-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/wikipedia_2012
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于Wikipedia的数据集,截至2012年12月31日。数据集包含了每年12月31日的最新修订版本,即使某些页面的修订日期早于目标日期,这些页面在截止日期时被认为是当前版本。数据集经过清理,去除了文件链接、强调、注释、缩进、HTML、引用等不必要的元素。数据集适用于历时研究、历史LLM预训练等任务。

这是一个基于Wikipedia的数据集,截至2012年12月31日。数据集包含了每年12月31日的最新修订版本,即使某些页面的修订日期早于目标日期,这些页面在截止日期时被认为是当前版本。数据集经过清理,去除了文件链接、强调、注释、缩进、HTML、引用等不必要的元素。数据集适用于历时研究、历史LLM预训练等任务。
提供机构:
Ti-Ma
原始信息汇总

数据集概述

数据集名称

Dataset Name

数据集描述

这是一个截至2012年12月31日的维基百科数据集。该数据集包含维基百科文章的修订历史,特别选取每年12月31日的最新修订版本。这些版本可能包含多年前未编辑的页面,但反映了截至目标日期的现有维基百科页面状态。数据集通过使用wiki-dump-reader工具清理页面,移除了文件链接、强调、评论、缩进、HTML、参考等不必要特征和属性。

语言

英语

许可证

cc-by-sa-3.0

用途

  • 维基百科的历时研究
  • 历史语言模型预训练
  • 需要严格时间分区的数据任务

数据集结构

数据集采用适合快速加载大文件的格式,并与Huggingface数据集框架兼容。

偏差、风险和局限性

数据集包含所有维基百科文章,其中部分可能对终端用户无用,可能需要对相关文章进行筛选以适应下游任务。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作