维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)

github2019-02-15 更新2024-05-31 收录

下载链接：

https://github.com/yaoqi/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

维基百科(wiki2019zh)包含104万个词条，可用于通用中文语料、预训练语料或构建知识问答。新闻语料(news2016zh)包含250万篇新闻，可用于训练词向量、预训练语料或训练标题生成模型。百科问答(baike2018qa)包含150万个问答，可用于训练词向量、预训练语料或构建百科类问答。

The Wikipedia (wiki2019zh) dataset comprises 1.04 million entries, suitable for general Chinese corpus, pre-training materials, or constructing knowledge-based question-answering systems. The news corpus (news2016zh) includes 2.5 million news articles, ideal for training word vectors, pre-training materials, or developing headline generation models. The encyclopedia Q&A (baike2018qa) dataset contains 1.5 million question-answer pairs, useful for training word vectors, pre-training materials, or building encyclopedia-style question-answering systems.

创建时间：

2019-02-15

原始信息汇总

数据集概述

1. 维基百科json版(wiki2019zh)

规模: 包含1,043,224个词条，原始文件大小1.6G，压缩文件519M。
更新时间: 2019年2月7日。
结构: 数据格式为{"id":<id>,"url":<url>,"title":<title>,"text":<text>}，其中title是词条标题，text是正文，通过`

`换行。

用途: 可用于预训练语料、构建词向量或知识问答。

2. 新闻语料json版(news2016zh)

规模: 包含250万篇新闻，原始数据9G，压缩文件3.6G。新闻内容跨度为2014-2016年。
数据描述: 涵盖6.3万个媒体，包含标题、关键词、描述、正文。数据去重并分为训练集（243万）、验证集（7.7万）和测试集（数万，不提供下载）。
结构: 数据格式为{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}。
用途: 可用于预训练语料、训练词向量、标题生成模型或关键词生成模型。

3. 百科类问答json版(baike2018qa)

规模: 包含150万个问答，原始数据1G多，压缩文件663M。
数据描述: 包含492个类别，其中434个类别频率达到或超过10次。数据去重并分为训练集（142.5万）、验证集（4.5万）和测试集（数万，不提供下载）。
结构: 数据格式为{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}。
用途: 可用于预训练语料、训练词向量或构建百科类问答。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集的构建，均以大规模中文文本为基础，采用json格式存储。其中，维基百科数据集包含了104万个词条，新闻语料数据集包含了250万篇新闻，百科问答数据集则含有150万个问题与答案。构建过程中，词条、新闻、问答均按照特定结构进行组织，便于后续处理与分析。

特点

这三个数据集的特点在于其大规模的中文文本资源，覆盖了广泛的主题和知识领域。维基百科(wiki2019zh)提供了详尽的词条信息，新闻语料(news2016zh)展现了时效性强的新闻内容，而百科问答(baike2018qa)则聚焦于问答对，包含了类别信息，适合于构建知识问答系统。此外，数据集经过去重和划分，形成了训练集、验证集和测试集，便于模型的训练和评估。

使用方法

使用这些数据集时，用户可以根据具体需求选择相应的数据集。例如，维基百科数据集可用于预训练词向量或构建知识问答；新闻语料数据集适合训练标题生成和关键词生成模型；百科问答数据集则可用于监督训练，以构建更好的句子表示模型。用户需下载对应的数据集，并根据提供的json结构进行读取和处理，以适应不同的自然语言处理任务。

背景与挑战

背景概述

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集均为中文自然语言处理领域贡献了重要的语料资源。wiki2019zh数据集包含了104万个维基百科词条，news2016zh数据集则涵盖了250万篇新闻，而baike2018qa数据集则含有150万个百科问答对。这些数据集的创建旨在解决中文信息获取的难题，为研究人员和开发者提供大规模的中文语料，以支持词向量训练、预训练语料构建、知识问答、文本分类等任务。这些数据集由专业团队自2019年起不断扩充，对于推动中文自然语言处理技术的发展起到了积极作用。

当前挑战

尽管这些数据集为中文自然语言处理领域提供了宝贵的资源，但在构建和使用过程中也面临诸多挑战。首先，语料的多样性和质量是构建高质量数据集的关键，如何确保数据的准确性和覆盖面成为一大挑战。其次，大规模数据集的存储、处理和分发对技术提出了较高要求。此外，随着自然语言处理技术的不断发展，如何对数据集进行有效维护和更新，以适应新的研究需求，也是数据集维护者必须面对的挑战。

常用场景

经典使用场景

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集，在中文自然语言处理领域具有重要的应用价值。其中，维基百科数据集常用于构建预训练语言模型，为各类NLP任务提供基础支撑；新闻语料数据集适用于训练文本分类、情感分析等模型；百科问答数据集则可用于问答系统构建与优化。

衍生相关工作

基于这些数据集，研究者们衍生出了一系列相关工作，如构建了多种预训练语言模型、实现了不同类型的文本分类与问答系统，并在各类NLP竞赛和实际应用中取得了显著成果。

数据集最近研究