维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)

github2019-03-26 更新2024-05-31 收录

下载链接：

https://github.com/yyht/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

维基百科(wiki2019zh)包含104万个词条，可用于通用中文语料、预训练的语料或构建知识问答。新闻语料(news2016zh)包含250万篇新闻，可用于训练词向量或预训练的语料，也可用于训练标题生成模型或关键词生成模型。百科问答(baike2018qa)包含150万个问答，可用于训练词向量或预训练的语料，也可用于构建百科类问答。

The Wikipedia (wiki2019zh) dataset comprises 1.04 million entries, suitable for general Chinese corpus, pre-training materials, or constructing knowledge-based question-answering systems. The news corpus (news2016zh) includes 2.5 million news articles, which can be utilized for training word vectors or as pre-training materials, as well as for developing headline generation models or keyword generation models. The encyclopedia Q&A (baike2018qa) dataset contains 1.5 million question-answer pairs, ideal for training word vectors or as pre-training materials, and also for building encyclopedia-style question-answering systems.

创建时间：

2019-02-11

原始信息汇总

数据集概述

1. 维基百科json版(wiki2019zh)

规模: 包含1,043,224个词条，原始文件大小1.6G，压缩文件519M。
更新时间: 2019年2月7日。
结构: 数据格式为JSON，包含字段：id, url, title, text。
示例: 包含词条标题和正文内容。
用途: 可用于预训练语料、构建词向量或知识问答系统。

2. 新闻语料json版(news2016zh)

规模: 包含250万篇新闻，原始数据9G，压缩文件3.6G。
时间范围: 2014-2016年。
结构: 数据格式为JSON，包含字段：news_id, title, content, source, time, keywords, desc。
示例: 包含新闻标题、内容、来源、时间等信息。
用途: 可用于预训练语料、训练词向量、标题生成模型或关键词生成模型。

3. 百科类问答json版(baike2018qa)

规模: 包含150万个问答，原始数据1G多，压缩文件663M。
更新时间: 2018年。
结构: 数据格式为JSON，包含字段：qid, category, title, desc, answer。
示例: 包含问题、答案及类别信息。
用途: 可用于预训练语料、训练词向量或构建百科类问答系统。

数据集贡献

联系方式: 贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。
贡献奖励: 根据语料的质量和量级，选出前20个贡献者，提供键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集均采用JSON格式构建，其中包含大量中文文本数据。wiki2019zh数据集更新于2019年2月7日，包含104万个维基百科词条；news2016zh数据集则涵盖2014至2016年间的250万篇新闻，来源于6.3万个媒体；baike2018qa数据集含有150万个问题及其答案，涵盖492个类别。各数据集均经过去重处理，并划分为训练集、验证集和测试集，以确保数据的质量和多样性。

特点

这些数据集的特点在于其大规模的中文文本资源，适合用于自然语言处理任务中的预训练和模型构建。wiki2019zh提供了丰富的知识库内容，news2016zh展现了多样化的新闻视角，而baike2018qa则专注于问答对，有助于模型的问答能力训练。每个数据集都采用了结构化的JSON格式存储，便于数据的读取和处理。此外，数据集的持续更新和扩充也保证了其时效性和可用性。

使用方法

使用这些数据集时，用户可以根据需要下载数据集的压缩文件，并解压后按照JSON格式进行读取。数据集适用于词向量训练、预训练任务、构建知识问答系统、进行标题生成和关键词提取等自然语言处理任务。用户需要根据具体任务的需求，选择合适的数据集部分进行训练和验证。同时，数据集的提供者还鼓励用户在验证集上报告模型的准确率，并提供了贡献语料的途径，以促进中文自然语言处理领域的发展。

背景与挑战

背景概述

在2019年，针对中文自然语言处理领域缺乏大规模语料的现状，相关研究人员和机构启动了一个旨在贡献中文语料的项目。该项目一期和二期目标分别指向百万级和千万级中文语料库的构建。其中，维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集是该项目的成果之一。这些数据集为研究人员提供了丰富的中文文本资源，有助于词向量训练、预训练语料构建、知识问答以及模型训练等任务，对推动中文自然语言处理领域的研究具有重要意义。

当前挑战

尽管这些数据集为中文自然语言处理领域提供了宝贵的资源，但在构建和使用过程中仍面临一些挑战。构建挑战包括如何确保语料的时效性、多样性和质量，以及如何处理大规模数据集的存储和传输问题。研究挑战则体现在如何利用这些数据集有效地进行模型训练，解决如文本表示、语义理解、以及跨领域应用等问题。此外，数据集的标注一致性、类别的均衡性也是在使用过程中需要关注的要点。

常用场景

经典使用场景

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集，作为中文自然语言处理领域的重要资源，其经典使用场景在于为深度学习模型提供丰富的训练数据。其中，维基百科数据集常用于构建和预训练语言模型，以改善自然语言理解和生成任务；新闻语料数据集适用于训练文本分类、情感分析及信息抽取等模型；百科问答数据集则专注于提供问答对，服务于问答系统和知识图谱构建等应用。

解决学术问题

这些数据集解决了中文自然语言处理领域中的多个学术研究问题，如词汇嵌入的准确性、文本理解的深度和广度、信息检索的效率等。通过使用这些大规模的中文语料库，研究者能够训练出更加精确的模型，进而提高语言识别、语义理解、机器翻译等任务的性能，对于推动中文信息处理技术的发展具有重要的意义和影响。

衍生相关工作

基于这些数据集，学术界和工业界衍生出了众多经典工作。包括但不限于构建高质量的中文词向量、开发高效的文本分类算法、实现精准的问答匹配系统等。这些成果进一步推动了中文自然语言处理技术的进步，并为相关领域的深入研究奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成