Ti-Ma/wikipedia_2017

Name: Ti-Ma/wikipedia_2017
Creator: Ti-Ma
Published: 2024-04-26 10:30:42
License: 暂无描述

Hugging Face2024-04-26 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Ti-Ma/wikipedia_2017

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于Wikipedia的数据集，截止日期为2017年12月31日。数据集包含了每年12月31日的最新修订版本，即使某些页面的修订日期早于目标日期，这些页面在截止日期时被认为是当前版本。数据集经过清理，去除了文件链接、强调、评论、缩进、HTML、引用等不需要的特征和属性。数据集适用于历时研究、历史LLM预训练以及需要严格时间分区数据的任务。

提供机构：

Ti-Ma

原始信息汇总

数据集概述

数据集名称

Dataset Name

数据集描述

本数据集为截至2017年12月31日的维基百科数据集。数据集包含了每年12月31日为止的最新修订版本，确保了数据集反映了每年年底维基百科上最新的信息。数据集通过使用wiki-dump-reader工具进行清洗，去除了文件链接、强调、评论、缩进、HTML、参考等不必要的内容。

语言

英语

许可证

cc-by-sa-3.0

用途

适用于维基百科的历时研究、历史语言模型预训练以及任何需要严格时间分区的数据任务。

数据集结构

数据集采用适合快速加载大型文件的格式，并与Huggingface数据集框架兼容。

偏差、风险和限制

数据集包含所有维基百科文章，其中部分可能对终端用户不适用，可能需要对相关文章进行筛选以适应下游任务。

搜集汇总

数据集介绍

背景与挑战

背景概述

Ti-Ma/wikipedia_2017数据集是一个维基百科2017年的HTML文本内容集合，包含多种格式的数据，如表格和文本，适用于自然语言处理和文本挖掘任务。数据集采用CC-BY-SA-3.0许可证，大小为1M到10M之间，适合用于研究和分析维基百科的内容结构。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集