five

schedulerStar/wikipedia-zh-cn

收藏
Hugging Face2026-03-09 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/schedulerStar/wikipedia-zh-cn
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - zh pretty_name: Wikipedia Chinese Dataset size_categories: - 100M<n<1B --- # Wikipedia Chinese Dataset 中文维基百科(Wikipedia 中文版)离线数据集 [zhwiki dump](https://dumps.wikimedia.org/zhwiki),按日期快照保存,适用于自然语言处理、信息检索、知识图谱构建等任务。 ## 📦 数据集简介 本数据集包含多个时间点的中文维基百科全文快照,数据以 JSON 格式存储,每条记录包含唯一 ID、标题、标签和正文内容。 适合用于: - 语言模型预训练 / 微调 - 文本分类、聚类 - 知识抽取与问答系统 - 信息检索与索引构建 ## 🗂 文件列表 | 文件名 | 大小 | 更新时间 | | ------ | ---- | -------- | | `wikipedia-zh-cn-20240901.json` | 2.12 GB | 2024-09-01 | | `wikipedia-zh-cn-20241020.json` | 2.13 GB | 2024-10-20 | | `wikipedia-zh-cn-20250320.json` | 2.18 GB | 2025-03-20 | | `wikipedia-zh-cn-20250901.json` | 2.25 GB | 2025-09-01 | | `wikipedia-zh-cn-20260201.json` | 2.35 GB | 2026-02-01 | ## 📑 数据格式 每个 JSON 文件由多行 JSON 组成(JSON Lines 格式),每行是一条维基百科条目,包含以下字段: | 字段名 | 类型 | 描述 | | ------ | ---- | ---- | | `id` | `string` / `int` | 条目唯一标识符 | | `title` | `string` | 维基百科条目标题 | | `tags` | `array[string]` | 条目标签或分类 | | `text` | `string` | 条目正文内容(纯文本) | ### 示例 ```json { "id": "123456", "title": "人工智能", "tags": ["科技", "计算机科学", "机器学习"], "text": "人工智能(Artificial Intelligence,简称 AI)是计算机科学的一个分支..." } ``` ## 🚀 加载方法 ### 使用 Hugging Face `datasets` 库 ```python from datasets import load_dataset # 加载最新版本(2026-02-01) dataset = load_dataset("fjcanyue/wikipedia-zh-cn", data_files="wikipedia-zh-cn-20260201.json", split="train") # 查看样例 print(dataset[0]) ``` ## ⚠️ 注意事项 - 数据来源于维基百科中文站点,版权归维基百科及其贡献者所有。 - 数据体积较大,加载时请确保有足够的内存或使用流式读取。 ## 📜 许可证 本数据集来源于 [Wikipedia 中文版](https://zh.wikipedia.org/),原始文本内容遵循以下协议: - [GNU Free Documentation License 1.3](https://www.gnu.org/licenses/fdl-1.3.html) - [Creative Commons Attribution-ShareAlike 4.0 International](https://creativecommons.org/licenses/by-sa/4.0/) 除非另有说明,文本内容可在遵守上述协议的前提下自由共享、修改和再发布(包括商业用途)。 部分内容可能仅适用 CC BY-SA 4.0 协议,或属于合理使用/其他版权例外,请在使用前确认。 图片、媒体文件的授权信息请参考其在维基百科的描述页。 更多信息请参考 [Wikimedia Dumps License Information](https://dumps.wikimedia.org/legal.html)。 --- **作者**: [fjcanyue](https://huggingface.co/fjcanyue) **数据来源**: [Wikipedia 中文版](https://zh.wikipedia.org/)

--- language: - 中文 pretty_name: 维基百科中文数据集(Wikipedia Chinese Dataset) size_categories: - 100M<n<1B --- # 维基百科中文数据集 中文维基百科(Wikipedia 中文版)离线数据集 [zhwiki 转储包(zhwiki dump)](https://dumps.wikimedia.org/zhwiki),以日期快照形式存储,适用于自然语言处理、信息检索、知识图谱构建等研究与应用任务。 ## 📦 数据集简介 本数据集收录多时间节点的中文维基百科全文快照,数据采用JSON格式存储,单条记录包含唯一标识符、条目标题、分类标签与正文内容。 可应用于以下场景: - 大语言模型(Large Language Model, LLM)预训练与微调 - 文本分类与聚类任务 - 知识抽取与问答系统构建 - 信息检索与索引搭建 ## 🗂 文件列表 | 文件名 | 大小 | 更新时间 | | ------ | ---- | -------- | | `wikipedia-zh-cn-20240901.json` | 2.12 GB | 2024-09-01 | | `wikipedia-zh-cn-20241020.json` | 2.13 GB | 2024-10-20 | | `wikipedia-zh-cn-20250320.json` | 2.18 GB | 2025-03-20 | | `wikipedia-zh-cn-20250901.json` | 2.25 GB | 2025-09-01 | | `wikipedia-zh-cn-20260201.json` | 2.35 GB | 2026-02-01 | ## 📑 数据格式 所有JSON文件均采用JSON Lines格式(即每行一条独立JSON对象)存储,每一行对应一条维基百科条目,包含以下字段: | 字段名 | 类型 | 描述 | | ------ | ---- | ---- | | `id` | `字符串(string)/ 整数(int)` | 条目的唯一标识符 | | `title` | `字符串(string)` | 维基百科条目标题 | | `tags` | `字符串数组(array[string])` | 条目标签或分类 | | `text` | `字符串(string)` | 条目正文纯文本内容 | ### 示例 json { "id": "123456", "title": "人工智能", "tags": ["科技", "计算机科学", "机器学习"], "text": "人工智能(Artificial Intelligence,简称 AI)是计算机科学的一个分支..." } ## 🚀 加载方法 ### 使用 Hugging Face 数据集(datasets)库 python from datasets import load_dataset # 加载最新版本(2026-02-01) dataset = load_dataset("fjcanyue/wikipedia-zh-cn", data_files="wikipedia-zh-cn-20260201.json", split="train") # 查看数据样例 print(dataset[0]) ## ⚠️ 注意事项 - 本数据集源自维基百科中文站点,版权归维基百科及其贡献者所有。 - 数据集体积较大,加载时请确保具备充足内存,或采用流式读取方式。 ## 📜 许可证 本数据集源自 [维基百科中文版(Wikipedia 中文版)](https://zh.wikipedia.org/),原始文本内容遵循以下协议: - [GNU自由文档协议1.3(GNU Free Documentation License 1.3)](https://www.gnu.org/licenses/fdl-1.3.html) - [知识共享署名-相同方式共享4.0国际版(Creative Commons Attribution-ShareAlike 4.0 International)](https://creativecommons.org/licenses/by-sa/4.0/) 若无特殊说明,文本内容可在遵循上述协议的前提下自由共享、修改与再发布(含商业用途)。部分内容可能仅适用CC BY-SA 4.0协议,或属于合理使用范畴及其他版权例外情形,请在使用前自行核实。图片及媒体文件的授权信息请参阅其在维基百科的对应描述页面。 更多信息请参阅 [维基媒体转储项目许可信息(Wikimedia Dumps License Information)](https://dumps.wikimedia.org/legal.html)。 --- **作者**:[fjcanyue](https://huggingface.co/fjcanyue) **数据来源**:[维基百科中文版(Wikipedia 中文版)](https://zh.wikipedia.org/)
提供机构:
schedulerStar
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作