维基百科(wiki2019zh)

github2019-03-06 更新2024-05-31 收录

下载链接：

https://github.com/httttttt/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个词条，可用于通用中文语料预训练、构建词向量或知识问答。数据结构为json格式，包含id、url、title和text字段。

This dataset comprises 1.04 million entries, suitable for pre-training general Chinese language models, constructing word vectors, or building knowledge-based question-answering systems. The data is structured in JSON format, including fields such as id, url, title, and text.

创建时间：

2019-02-15

原始信息汇总

数据集概述

维基百科(wiki2019zh)

规模: 包含104万个词条，原始文件大小1.6G，压缩文件519M。
更新时间: 2019年2月7日。
结构: 数据格式为JSON，包含字段如id, url, title, text。
用途: 可作为通用中文语料，用于预训练语料或构建词向量，也可用于构建知识问答系统。

新闻语料(news2016zh)

规模: 包含250万篇新闻，原始数据9G，压缩文件3.6G。
时间跨度: 2014-2016年。
结构: 数据格式为JSON，包含字段如news_id, title, content, source, time, keywords, desc。
用途: 可作为通用中文语料，用于训练词向量或预训练语料，也可用于训练标题生成模型或关键词生成模型。

百科类问答(baike2018qa)

规模: 包含150万个问答，原始数据1G多，压缩文件663M。
结构: 数据格式为JSON，包含字段如qid, category, title, desc, answer。
用途: 可作为通用中文语料，用于训练词向量或预训练语料，也可用于构建百科类问答系统。

翻译语料(translation2019zh)

规模: 包含520万个中英文平行语料对，原始数据1.1G，压缩文件596M。
结构: 数据格式为JSON，包含字段如english, chinese。
用途: 可用于训练中英文翻译系统，也可作为通用中文语料，用于训练词向量或预训练语料。

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料，目标日期：2019年5月1日。
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料，目标日期：2019年12月31日。

贡献语料

联系方式: 通过电子邮件nlp_chinese_corpus@163.com贡献中文语料。
贡献奖励: 根据语料的质量和量级，选出前20个贡献者，提供键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品作为感谢。

搜集汇总

数据集介绍

构建方式

维基百科数据集（wiki2019zh）的构建是通过直接从维基百科的中文最新数据快照中进行提取和整理得到的。该数据集包含了104万个词条，每个词条由一个唯一的标识符、URL链接、标题和正文组成，正文以' '作为段落分隔符。构建过程中，词条数据未经进一步加工，保留了原始的格式和内容，旨在为研究者提供尽可能接近原生状态的语料资源。

特点

该数据集的特点在于其规模宏大，覆盖了广泛的主题和知识领域，反映了中文维基百科的全面性和多样性。作为未经深度加工的原始语料，它能够为自然语言处理任务提供丰富的上下文信息。此外，数据集以JSON格式存储，便于程序读取和处理，具有较高的易用性和灵活性。

使用方法

使用维基百科数据集时，用户可以直接下载压缩后的JSON文件，并解压以获取数据。数据集适用于多种自然语言处理任务，如预训练语言模型、构建词向量、知识问答等。用户可以根据具体需求，对数据进行筛选、清洗和格式化，以适应不同的应用场景。数据集的JSON结构也便于利用编程语言如Python进行高效的数据处理和分析。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是在2019年由nlp_chinese_corpus项目贡献的中文语料库之一，旨在为中文自然语言处理领域提供高质量的语料资源。该数据集包含了1,043,224个维基百科词条，涵盖了广泛的知识领域，为研究者提供了丰富的信息资源。创建该数据集的主要研究人员或机构不详，但项目表明其目的是为了解决中文信息获取困难的问题，特别是在大规模中文语料获取方面。该数据集对中文自然语言处理领域产生了显著影响，成为构建词向量、预训练语料以及知识问答等任务的重要基础。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，研究人员面临了多个挑战。首先，是如何从维基百科的原始数据中提取并整理出适用于自然语言处理的语料，这涉及到数据清洗、格式统一等预处理工作。其次，由于维基百科内容的不断更新，保持数据集的时效性和准确性也是一个挑战。此外，数据集的规模和质量对构建高性能的自然语言处理模型至关重要，因此如何在保证数据量的同时确保数据质量，是该项目需要持续关注和解决的问题。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集是中文自然语言处理领域的重要资源，其经典使用场景在于构建预训练语言模型。通过该数据集中丰富的中文词条及其正文内容，研究者可以训练出能够理解中文语境的深度学习模型，为下游任务如文本分类、机器翻译等提供强有力的基础支撑。

衍生相关工作

基于该数据集，衍生了众多相关研究工作，包括但不限于构建中文词向量模型、进行知识图谱的构建与完善，以及开发各种基于深度学习的自然语言处理应用，如智能问答系统、自动摘要生成等，极大地推动了中文自然语言处理技术的发展。

数据集最近研究