five

rfikd/wikipedia-zh-cn

收藏
Hugging Face2026-01-13 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/rfikd/wikipedia-zh-cn
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - zh pretty_name: Wikipedia Chinese Dataset size_categories: - 100M<n<1B --- # Wikipedia Chinese Dataset 中文维基百科(Wikipedia 中文版)离线数据集 [zhwiki dump](https://dumps.wikimedia.org/zhwiki),按日期快照保存,适用于自然语言处理、信息检索、知识图谱构建等任务。 ## 📦 数据集简介 本数据集包含多个时间点的中文维基百科全文快照,数据以 JSON 格式存储,每条记录包含唯一 ID、标题、标签和正文内容。 适合用于: - 语言模型预训练 / 微调 - 文本分类、聚类 - 知识抽取与问答系统 - 信息检索与索引构建 ## 🗂 文件列表 | 文件名 | 大小 | 更新时间 | | ------ | ---- | -------- | | `wikipedia-zh-cn-20240901.json` | 2.12 GB | 2024-09-01 | | `wikipedia-zh-cn-20241020.json` | 2.13 GB | 2024-10-20 | | `wikipedia-zh-cn-20250320.json` | 2.18 GB | 2025-03-20 | | `wikipedia-zh-cn-20250901.json` | 2.25 GB | 2025-09-01 | ## 📑 数据格式 每个 JSON 文件由多行 JSON 组成(JSON Lines 格式),每行是一条维基百科条目,包含以下字段: | 字段名 | 类型 | 描述 | | ------ | ---- | ---- | | `id` | `string` / `int` | 条目唯一标识符 | | `title` | `string` | 维基百科条目标题 | | `tags` | `array[string]` | 条目标签或分类 | | `text` | `string` | 条目正文内容(纯文本) | ### 示例 ```json { "id": "123456", "title": "人工智能", "tags": ["科技", "计算机科学", "机器学习"], "text": "人工智能(Artificial Intelligence,简称 AI)是计算机科学的一个分支..." } ``` ## 🚀 加载方法 ### 使用 Hugging Face `datasets` 库 ```python from datasets import load_dataset # 加载最新版本(2025-09-01) dataset = load_dataset("fjcanyue/wikipedia-zh-cn", data_files="wikipedia-zh-cn-20250901.json", split="train") # 查看样例 print(dataset[0]) ``` ## ⚠️ 注意事项 - 数据来源于维基百科中文站点,版权归维基百科及其贡献者所有。 - 数据体积较大,加载时请确保有足够的内存或使用流式读取。 ## 📜 许可证 本数据集来源于 [Wikipedia 中文版](https://zh.wikipedia.org/),原始文本内容遵循以下协议: - [GNU Free Documentation License 1.3](https://www.gnu.org/licenses/fdl-1.3.html) - [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/) 除非另有说明,文本内容可在遵守上述协议的前提下自由共享、修改和再发布(包括商业用途)。 部分内容可能仅适用 CC BY-SA 4.0 协议,或属于合理使用/其他版权例外,请在使用前确认。 图片、媒体文件的授权信息请参考其在维基百科的描述页。 更多信息请参考 [Wikimedia Dumps License Information](https://dumps.wikimedia.org/legal.html)。 --- **作者**: [fjcanyue](https://huggingface.co/fjcanyue) **数据来源**: [Wikipedia 中文版](https://zh.wikipedia.org/)

--- language: - zh pretty_name: 中文维基百科数据集 size_categories: - 100M<n<1B --- # 中文维基百科数据集 中文维基百科(Wikipedia 中文版)离线数据集 [zhwiki 转储文件(zhwiki dump)](https://dumps.wikimedia.org/zhwiki),按日期快照形式存储,可应用于自然语言处理、信息检索、知识图谱构建等多项任务。 ## 📦 数据集概览 本数据集包含多个时间节点的中文维基百科全文快照,数据以 JavaScript对象表示法(JSON)格式存储,每条记录包含唯一标识符、标题、标签与正文内容。 适用场景包括: - 大语言模型(Large Language Model,LLM)预训练与微调 - 文本分类与聚类 - 知识抽取与问答系统 - 信息检索与索引构建 ## 🗂 文件列表 | 文件名 | 大小 | 更新时间 | | ------ | ---- | -------- | | `wikipedia-zh-cn-20240901.json` | 2.12 GB | 2024-09-01 | | `wikipedia-zh-cn-20241020.json` | 2.13 GB | 2024-10-20 | | `wikipedia-zh-cn-20250320.json` | 2.18 GB | 2025-03-20 | | `wikipedia-zh-cn-20250901.json` | 2.25 GB | 2025-09-01 | ## 📑 数据格式 每个 JSON 文件由多行 JSON 组成(JSON Lines 格式),每行对应一条维基百科条目,包含以下字段: | 字段名 | 类型 | 描述 | | ------ | ---- | ---- | | `id` | `string` / `int` | 条目唯一标识符 | | `title` | `string` | 维基百科条目标题 | | `tags` | `array[string]` | 条目标签或分类 | | `text` | `string` | 条目正文纯文本内容 | ### 示例 json { "id": "123456", "title": "人工智能", "tags": ["科技", "计算机科学", "机器学习"], "text": "人工智能(Artificial Intelligence,简称 AI)是计算机科学的一个分支..." } ## 🚀 加载方式 ### 使用 Hugging Face `datasets` 库 python from datasets import load_dataset # 加载最新版本(2025-09-01) dataset = load_dataset("fjcanyue/wikipedia-zh-cn", data_files="wikipedia-zh-cn-20250901.json", split="train") # 查看样例 print(dataset[0]) ## ⚠️ 使用须知 - 本数据集数据来源于维基百科中文站点,版权归维基百科及其贡献者所有。 - 数据集体积较大,加载时请确保拥有足够的内存空间,或采用流式读取方式。 ## 📜 授权协议 本数据集来源于 [Wikipedia 中文版(维基百科中文站)](https://zh.wikipedia.org/),原始文本内容遵循以下协议: - [GNU 自由文档协议1.3版(GNU Free Documentation License 1.3)](https://www.gnu.org/licenses/fdl-1.3.html) - [知识共享署名-相同方式共享4.0国际版(Creative Commons Attribution-ShareAlike 4.0 International)](https://creativecommons.org/licenses/by-sa/4.0/) 除非另有说明,文本内容可在遵守上述协议的前提下自由共享、修改与再发布(包括商业用途)。部分内容可能仅适用 CC BY-SA 4.0 协议,或属于合理使用/其他版权例外,请在使用前自行确认。图片及媒体文件的授权信息,请参考其在维基百科的对应描述页。 更多信息请参考 [维基媒体转储文件授权信息(Wikimedia Dumps License Information)](https://dumps.wikimedia.org/legal.html)。 --- **作者**: [fjcanyue](https://huggingface.co/fjcanyue) **数据来源**: [Wikipedia 中文版(维基百科中文站)](https://zh.wikipedia.org/)
提供机构:
rfikd
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作