schedulerStar/wikipedia-zh-cn
收藏Hugging Face2026-03-09 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/schedulerStar/wikipedia-zh-cn
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- zh
pretty_name: Wikipedia Chinese Dataset
size_categories:
- 100M<n<1B
---
# Wikipedia Chinese Dataset
中文维基百科(Wikipedia 中文版)离线数据集 [zhwiki dump](https://dumps.wikimedia.org/zhwiki),按日期快照保存,适用于自然语言处理、信息检索、知识图谱构建等任务。
## 📦 数据集简介
本数据集包含多个时间点的中文维基百科全文快照,数据以 JSON 格式存储,每条记录包含唯一 ID、标题、标签和正文内容。
适合用于:
- 语言模型预训练 / 微调
- 文本分类、聚类
- 知识抽取与问答系统
- 信息检索与索引构建
## 🗂 文件列表
| 文件名 | 大小 | 更新时间 |
| ------ | ---- | -------- |
| `wikipedia-zh-cn-20240901.json` | 2.12 GB | 2024-09-01 |
| `wikipedia-zh-cn-20241020.json` | 2.13 GB | 2024-10-20 |
| `wikipedia-zh-cn-20250320.json` | 2.18 GB | 2025-03-20 |
| `wikipedia-zh-cn-20250901.json` | 2.25 GB | 2025-09-01 |
| `wikipedia-zh-cn-20260201.json` | 2.35 GB | 2026-02-01 |
## 📑 数据格式
每个 JSON 文件由多行 JSON 组成(JSON Lines 格式),每行是一条维基百科条目,包含以下字段:
| 字段名 | 类型 | 描述 |
| ------ | ---- | ---- |
| `id` | `string` / `int` | 条目唯一标识符 |
| `title` | `string` | 维基百科条目标题 |
| `tags` | `array[string]` | 条目标签或分类 |
| `text` | `string` | 条目正文内容(纯文本) |
### 示例
```json
{
"id": "123456",
"title": "人工智能",
"tags": ["科技", "计算机科学", "机器学习"],
"text": "人工智能(Artificial Intelligence,简称 AI)是计算机科学的一个分支..."
}
```
## 🚀 加载方法
### 使用 Hugging Face `datasets` 库
```python
from datasets import load_dataset
# 加载最新版本(2026-02-01)
dataset = load_dataset("fjcanyue/wikipedia-zh-cn", data_files="wikipedia-zh-cn-20260201.json", split="train")
# 查看样例
print(dataset[0])
```
## ⚠️ 注意事项
- 数据来源于维基百科中文站点,版权归维基百科及其贡献者所有。
- 数据体积较大,加载时请确保有足够的内存或使用流式读取。
## 📜 许可证
本数据集来源于 [Wikipedia 中文版](https://zh.wikipedia.org/),原始文本内容遵循以下协议:
- [GNU Free Documentation License 1.3](https://www.gnu.org/licenses/fdl-1.3.html)
- [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/)
除非另有说明,文本内容可在遵守上述协议的前提下自由共享、修改和再发布(包括商业用途)。
部分内容可能仅适用 CC BY-SA 4.0 协议,或属于合理使用/其他版权例外,请在使用前确认。
图片、媒体文件的授权信息请参考其在维基百科的描述页。
更多信息请参考 [Wikimedia Dumps License Information](https://dumps.wikimedia.org/legal.html)。
---
**作者**: [fjcanyue](https://huggingface.co/fjcanyue)
**数据来源**: [Wikipedia 中文版](https://zh.wikipedia.org/)
---
language:
- 中文
pretty_name: 维基百科中文数据集(Wikipedia Chinese Dataset)
size_categories:
- 100M<n<1B
---
# 维基百科中文数据集
中文维基百科(Wikipedia 中文版)离线数据集 [zhwiki 转储包(zhwiki dump)](https://dumps.wikimedia.org/zhwiki),以日期快照形式存储,适用于自然语言处理、信息检索、知识图谱构建等研究与应用任务。
## 📦 数据集简介
本数据集收录多时间节点的中文维基百科全文快照,数据采用JSON格式存储,单条记录包含唯一标识符、条目标题、分类标签与正文内容。
可应用于以下场景:
- 大语言模型(Large Language Model, LLM)预训练与微调
- 文本分类与聚类任务
- 知识抽取与问答系统构建
- 信息检索与索引搭建
## 🗂 文件列表
| 文件名 | 大小 | 更新时间 |
| ------ | ---- | -------- |
| `wikipedia-zh-cn-20240901.json` | 2.12 GB | 2024-09-01 |
| `wikipedia-zh-cn-20241020.json` | 2.13 GB | 2024-10-20 |
| `wikipedia-zh-cn-20250320.json` | 2.18 GB | 2025-03-20 |
| `wikipedia-zh-cn-20250901.json` | 2.25 GB | 2025-09-01 |
| `wikipedia-zh-cn-20260201.json` | 2.35 GB | 2026-02-01 |
## 📑 数据格式
所有JSON文件均采用JSON Lines格式(即每行一条独立JSON对象)存储,每一行对应一条维基百科条目,包含以下字段:
| 字段名 | 类型 | 描述 |
| ------ | ---- | ---- |
| `id` | `字符串(string)/ 整数(int)` | 条目的唯一标识符 |
| `title` | `字符串(string)` | 维基百科条目标题 |
| `tags` | `字符串数组(array[string])` | 条目标签或分类 |
| `text` | `字符串(string)` | 条目正文纯文本内容 |
### 示例
json
{
"id": "123456",
"title": "人工智能",
"tags": ["科技", "计算机科学", "机器学习"],
"text": "人工智能(Artificial Intelligence,简称 AI)是计算机科学的一个分支..."
}
## 🚀 加载方法
### 使用 Hugging Face 数据集(datasets)库
python
from datasets import load_dataset
# 加载最新版本(2026-02-01)
dataset = load_dataset("fjcanyue/wikipedia-zh-cn", data_files="wikipedia-zh-cn-20260201.json", split="train")
# 查看数据样例
print(dataset[0])
## ⚠️ 注意事项
- 本数据集源自维基百科中文站点,版权归维基百科及其贡献者所有。
- 数据集体积较大,加载时请确保具备充足内存,或采用流式读取方式。
## 📜 许可证
本数据集源自 [维基百科中文版(Wikipedia 中文版)](https://zh.wikipedia.org/),原始文本内容遵循以下协议:
- [GNU自由文档协议1.3(GNU Free Documentation License 1.3)](https://www.gnu.org/licenses/fdl-1.3.html)
- [知识共享署名-相同方式共享4.0国际版(Creative Commons Attribution-ShareAlike 4.0 International)](https://creativecommons.org/licenses/by-sa/4.0/)
若无特殊说明,文本内容可在遵循上述协议的前提下自由共享、修改与再发布(含商业用途)。部分内容可能仅适用CC BY-SA 4.0协议,或属于合理使用范畴及其他版权例外情形,请在使用前自行核实。图片及媒体文件的授权信息请参阅其在维基百科的对应描述页面。
更多信息请参阅 [维基媒体转储项目许可信息(Wikimedia Dumps License Information)](https://dumps.wikimedia.org/legal.html)。
---
**作者**:[fjcanyue](https://huggingface.co/fjcanyue)
**数据来源**:[维基百科中文版(Wikipedia 中文版)](https://zh.wikipedia.org/)
提供机构:
schedulerStar



