维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)

github2019-02-14 更新2024-05-31 收录

下载链接：

https://github.com/lhzz00/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

维基百科(wiki2019zh)包含104万个词条，可用于通用中文语料、预训练语料或构建知识问答。新闻语料(news2016zh)包含250万篇新闻，可用于训练词向量或预训练语料，也可用于训练标题生成模型或关键词生成模型。百科问答(baike2018qa)包含150万个问答，可用于训练词向量或预训练语料，也可用于构建百科类问答。

The Wikipedia (wiki2019zh) dataset comprises 1.04 million entries, suitable for general Chinese corpus, pre-training materials, or constructing knowledge-based question-answering systems. The news corpus (news2016zh) includes 2.5 million news articles, which can be utilized for training word vectors or as pre-training materials, as well as for developing headline generation models or keyword generation models. The encyclopedia Q&A (baike2018qa) dataset contains 1.5 million question-answer pairs, ideal for training word vectors or as pre-training materials, and also for building encyclopedia-style question-answering systems.

创建时间：

2019-02-14

原始信息汇总

数据集概述

维基百科(wiki2019zh)

规模: 104万个词条
文件大小: 原始文件1.6G，压缩文件519M
更新时间: 2019年2月7日
结构: 包含id, url, title, text字段，其中text通过"

"换行

用途: 通用中文语料，预训练语料，构建词向量，知识问答

新闻语料(news2016zh)

规模: 250万篇新闻
文件大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
结构: 包含news_id, title, content, source, time, keywords, desc字段
用途: 通用中文语料，训练词向量，预训练语料，标题生成模型，关键词生成模型

百科问答(baike2018qa)

规模: 150万个问答
文件大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
结构: 包含qid, category, title, desc, answer字段
用途: 通用中文语料，训练词向量，预训练语料，百科类问答，监督训练，句子相似性任务

贡献语料

联系方式: nlp_chinese_corpus@163.com
贡献奖励: 根据语料质量和量级，选出前20个贡献者，提供键盘、鼠标、显示屏、无线耳机、智能音箱等奖励

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集的构建，旨在为中文自然语言处理领域提供丰富的语料资源。其中，维基百科数据集通过爬取和提取维基百科网站的最新中文词条，新闻语料数据集则汇集了来自6.3万个媒体的不同时间段内的新闻，百科问答数据集则整理了大量的中文问答对，并按照类别进行了划分。

特点

这些数据集的特点在于：一是数据规模大，分别为百万级和千万级，满足了大规模训练的需求；二是数据多样性丰富，涵盖了不同领域的知识和信息，有助于模型的泛化能力；三是数据更新及时，能够反映最新的语言使用习惯和信息动态。

使用方法

使用这些数据集时，用户可以根据具体需求进行选择。例如，维基百科数据集适合用于构建词向量或进行知识问答的预训练；新闻语料数据集可以用于训练标题生成模型或关键词生成模型；百科问答数据集则可用于构建问答系统或进行句子相似性任务。用户在下载和使用数据集时，应遵循相应的数据使用规范和版权要求。

背景与挑战

背景概述

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集均为中文自然语言处理领域的重要资源。其中，wiki2019zh包含104万个维基百科词条，旨在为研究者提供丰富的中文文本信息；news2016zh则涵盖了2014-2016年间250万篇新闻，为文本分析和信息挖掘提供了大量实例；baike2018qa汇集了150万个百科问答，有助于问答系统的研究与开发。这些数据集的创建，始于2019年，由致力于中文自然语言处理研究的人员和机构发起，以解决中文语料获取困难的问题，对推动中文NLP领域的研究具有重大意义。

当前挑战

在数据集构建过程中，研究人员面临了多个挑战。首先，是确保语料的时效性和质量，避免陈旧和低质数据对研究的干扰。其次，是语料的多样性和覆盖面，需要从多个来源和类型中广泛收集数据，以满足不同研究需求。此外，数据集的规模也是一个挑战，如何高效处理和存储大规模数据，保证数据的可用性和可访问性，是必须解决的问题。在研究领域，这些数据集的应用还面临如何准确提取信息、构建有效模型以及处理数据不平衡等挑战。

常用场景

经典使用场景

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集，作为中文自然语言处理领域的重要资源，其经典使用场景主要集中于构建和训练自然语言处理模型。例如，维基百科数据集可用于构建预训练语言模型，以提升机器对中文语言的理解和生成能力；新闻语料数据集可用于训练文本分类、信息抽取等模型，从而提升模型对新闻文本的处理和分析能力；百科问答数据集则适用于构建问答系统，提升机器对用户提问的理解和回答的准确性。

解决学术问题

这三个数据集解决了中文自然语言处理领域中获取大规模、高质量中文语料难题，为学术研究提供了丰富的数据支持。例如，维基百科数据集有助于研究者在词向量、语言模型等任务上取得更好的效果；新闻语料数据集为文本分类、情感分析等研究提供了大量标注数据；百科问答数据集则为构建和应用问答系统提供了丰富的问答对，有助于提升相关研究的实用价值。

衍生相关工作

这三个数据集的发布促进了大量相关研究工作的开展。例如，研究者基于维基百科数据集进行了词向量训练，并在多个NLP任务上取得了显著效果；新闻语料数据集被用于文本分类、信息抽取等任务的模型训练和评估；百科问答数据集则催生了多种问答系统的构建和研究，推动了中文自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成