维基百科(wiki2019zh)

github2020-11-26 更新2024-05-31 收录

下载链接：

https://github.com/CCER-2019/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

维基百科json版包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。数据集结构包括id、url、title和text，其中title是词条的标题，text是正文。

The Wikipedia JSON version contains 1.04 million well-structured Chinese entries, which can be used as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question answering systems. The dataset structure includes id, url, title, and text, where title is the heading of the entry and text is the main body.

创建时间：

2020-11-26

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条，原始文件大小1.6G，压缩文件519M。
更新时间: 2019年2月7日。
结构: 每个词条包含id, url, title, text。
用途: 通用中文语料，预训练语料，构建词向量，知识问答。

2. 新闻语料(news2016zh)

规模: 250万篇新闻，原始数据9G，压缩文件3.6G。
时间跨度: 2014-2016年。
结构: 包含news_id, title, content, source, time, keywords, desc。
用途: 通用中文语料，训练词向量，预训练语料，标题生成，关键词生成。

3. 百科问答(baike2018qa)

规模: 150万个问答，原始数据1G多，压缩文件663M。
更新时间: 2018年。
结构: 包含qid, category, title, desc, answer。
用途: 通用中文语料，预训练语料，构建百科类问答。

4. 社区问答json版(webtext2019zh)

规模: 410万个问答，过滤后数据3.7G，压缩文件1.7G。
时间跨度: 2015-2016年。
结构: 包含qid, title, desc, topic, star, content, answer_id, answerer_tags。
用途: 构建百科类问答，话题预测，社区问答系统，预训练语料，词向量训练。

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料，原始数据1.1G，压缩文件596M。
结构: 包含english, chinese。
用途: 中英文翻译系统，通用中文语料，预训练语料，词向量训练。

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1日）。
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）。

数据集更新

增加高质量社区问答json版(webtext2019zh)，可用于训练超大规模NLP模型。
添加520万翻译语料(translation2019zh)。

贡献语料

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于维基百科的中文词条，经过精心筛选和结构化处理，形成了包含104万个词条的语料库。每个词条以JSON格式存储，包含词条的唯一标识符、URL、标题以及正文内容。正文部分通过换行符进行分段，确保了数据的可读性和易用性。数据集的构建过程注重数据的完整性和质量，旨在为中文自然语言处理任务提供高质量的语料支持。

特点

该数据集的特点在于其广泛覆盖了中文维基百科的丰富内容，涵盖了从基础科学到人文社科等多个领域的知识。每个词条的结构化信息使得数据易于解析和使用，适合用于预训练语言模型、构建知识图谱或进行文本生成等任务。此外，数据集的规模适中，既保证了数据的多样性，又避免了过大带来的处理负担。

使用方法

维基百科(wiki2019zh)数据集的使用方法多样，主要适用于中文自然语言处理领域的研究和应用。用户可以通过下载数据集并解析JSON文件，获取词条的标题和正文内容。这些数据可用于训练词向量模型、构建问答系统或进行文本分类等任务。此外，数据集的结构化特性使其能够轻松集成到现有的NLP流程中，为模型训练和评估提供高质量的语料支持。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集由Bright Xu等人于2019年创建，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料。该数据集包含了104万个结构良好的中文词条，涵盖了广泛的主题，从经济学到社会科学等多个领域。该数据集的发布填补了中文NLP研究中大规模语料库的空白，极大地推动了中文预训练模型的发展，如ALBERT_Chinese等模型的训练。该数据集不仅为中文词向量的构建提供了基础，还为知识问答系统的开发提供了丰富的素材。

当前挑战

维基百科(wiki2019zh)数据集在构建过程中面临的主要挑战包括数据清洗与结构化的复杂性。由于维基百科的词条内容格式多样，且包含大量非结构化文本，如何将这些内容转化为适合NLP任务的标准化格式成为一大难题。此外，数据集的规模庞大，如何确保数据的质量与一致性也是一个重要挑战。在应用层面，尽管该数据集为中文NLP任务提供了丰富的语料，但如何有效利用这些数据进行模型训练，尤其是在多任务学习和迁移学习中的应用，仍然是一个亟待解决的问题。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集作为中文自然语言处理领域的重要资源，广泛应用于预训练语言模型和词向量构建。其结构化的词条数据为研究者提供了丰富的文本信息，能够有效支持文本分类、信息抽取、知识问答等任务。通过该数据集，研究者可以训练出更加精准的中文语言模型，提升模型在复杂语境下的表现。

解决学术问题

该数据集解决了中文自然语言处理领域中的语料稀缺问题，尤其是在大规模预训练模型的需求背景下。通过提供高质量、结构化的中文词条数据，研究者能够更好地训练和优化语言模型，提升其在语义理解、文本生成等任务中的性能。此外，该数据集还为知识图谱构建、问答系统开发等研究提供了坚实的基础。

衍生相关工作

基于维基百科(wiki2019zh)数据集，衍生了许多经典的自然语言处理工作。例如，ALBERT_Chinese预训练模型的开发便是基于该数据集进行训练，显著提升了中文语言模型的性能。此外，该数据集还被用于构建中文词向量模型、知识问答系统以及文本生成模型，推动了中文自然语言处理技术的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集