维基百科(wiki2019zh)

github2021-07-13 更新2024-05-31 收录

下载链接：

https://github.com/Hitchcock717/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

维基百科json版包含104万个词条，可作为通用中文语料，用于预训练的语料或构建词向量，也可用于构建知识问答。

The Wikipedia JSON version contains 1.04 million entries, serving as a general Chinese corpus. It can be utilized for pre-training materials or constructing word vectors, and is also suitable for building knowledge-based question answering systems.

创建时间：

2019-02-16

原始信息汇总

数据集概述

维基百科(wiki2019zh)

规模: 包含1,043,224个词条，原始文件大小1.6G，压缩文件519M。
更新时间: 2019年2月7日。
结构: 数据格式为JSON，包含字段如id, url, title, text。
用途: 可用于预训练语料、构建词向量或知识问答系统。

新闻语料(news2016zh)

规模: 包含250万篇新闻，原始数据9G，压缩文件3.6G。
时间范围: 2014-2016年。
结构: 数据格式为JSON，包含字段如news_id, title, content, source, time, keywords, desc。
用途: 可用于训练词向量、预训练语料、标题生成模型或关键词生成模型。

百科类问答(baike2018qa)

规模: 包含150万个问答，原始数据1G多，压缩文件663M。
结构: 数据格式为JSON，包含字段如qid, category, title, desc, answer。
用途: 可用于训练词向量、预训练语料或构建百科类问答系统。

翻译语料(translation2019zh)

规模: 包含520万个中英文平行语料，原始数据1.1G，压缩文件596M。
结构: 数据格式为JSON，包含字段如english, chinese。
用途: 可用于训练中英文翻译系统，或作为通用语料训练词向量。

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1日）。
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）。

贡献语料

联系方式: 通过电子邮件nlp_chinese_corpus@163.com贡献中文语料。
贡献奖励: 根据语料质量和量级，选出前20名贡献者，提供键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于2019年2月7日的维基百科中文版数据，共包含104万个词条。每个词条以JSON格式存储，包含词条的唯一标识符、URL、标题及正文内容。正文通过换行符进行分段，确保了数据的结构化和易读性。数据集的构建过程涉及从维基百科的原始数据中提取、清洗和格式化，以确保其适用于自然语言处理任务。

特点

该数据集的特点在于其广泛覆盖了中文维基百科的丰富内容，涵盖了从基础科学到人文社科的多个领域。每个词条的结构化存储方式使得数据易于解析和处理，适用于多种自然语言处理任务，如词向量训练、知识问答系统的构建等。此外，数据集的规模较大，能够为深度学习模型提供充足的训练样本。

使用方法

使用维基百科(wiki2019zh)数据集时，用户可以通过提供的下载链接获取压缩文件，解压后即可访问JSON格式的数据。每个词条的数据结构清晰，用户可以根据需要提取标题、正文等信息。该数据集适用于预训练语言模型、构建词向量或开发知识问答系统。用户还可以利用其丰富的文本内容进行文本分类、信息抽取等任务。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集由brightmart团队于2019年创建，旨在为中文自然语言处理（NLP）领域提供高质量的大规模语料资源。该数据集包含了104万个中文维基百科词条，涵盖了广泛的主题，从社会科学到自然科学，为研究者提供了丰富的文本数据。该数据集的推出填补了当时中文语料资源的空白，尤其是在预训练模型、词向量构建和知识问答系统等领域具有重要的应用价值。其创建背景源于中文语料资源的稀缺性，尤其是在2019年初，研究者难以获取大规模且高质量的中文文本数据。通过提供结构化的维基百科数据，该数据集为中文NLP研究提供了坚实的基础。

当前挑战

维基百科(wiki2019zh)数据集在构建和应用过程中面临多重挑战。首先，数据清洗和格式标准化是构建过程中的主要难题，维基百科的原始数据包含大量非结构化信息，如超链接、表格和注释，需要经过复杂的预处理才能转化为适合NLP任务的格式。其次，数据更新和扩展的挑战显著，维基百科内容随时间不断变化，如何保持数据集的时效性是一个持续的问题。此外，数据集的规模虽然庞大，但在某些特定领域（如专业术语或小众主题）的覆盖仍然有限，这可能影响其在某些任务中的表现。最后，数据集的多样性和代表性也是一个挑战，尽管维基百科内容广泛，但其编辑群体和内容来源的局限性可能导致数据在某些方面的偏差。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在中文自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其丰富的语料内容涵盖了广泛的学科和主题，为研究者提供了一个高质量的中文文本资源库。通过该数据集，研究人员能够训练出具有强大泛化能力的语言模型，进而应用于文本分类、情感分析、机器翻译等多种任务。

衍生相关工作

维基百科(wiki2019zh)数据集催生了许多经典的研究工作，例如基于该数据集的中文词向量模型训练和预训练语言模型的开发。这些工作不仅提升了中文NLP任务的性能，还为后续的研究提供了重要的基线模型。此外，该数据集还被用于构建中文知识图谱，推动了中文语义理解和知识推理领域的发展。

数据集最近研究