维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)

github2019-02-14 更新2024-05-31 收录

下载链接：

https://github.com/lgphub/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

维基百科(wiki2019zh)包含104万个词条，可用于预训练语料或构建词向量，也可用于构建知识问答。新闻语料(news2016zh)包含250万篇新闻，可用于训练词向量或预训练语料，也可用于训练标题生成或关键词生成模型。百科问答(baike2018qa)包含150万个问答，可用于训练词向量或预训练语料，也可用于构建百科类问答。

The Wikipedia (wiki2019zh) dataset comprises 1.04 million entries, suitable for pre-training corpora or constructing word vectors, and can also be utilized for building knowledge-based question-answering systems. The news corpus (news2016zh) includes 2.5 million news articles, ideal for training word vectors or pre-training corpora, and can also be employed for training headline generation or keyword generation models. The encyclopedia Q&A (baike2018qa) dataset contains 1.5 million question-answer pairs, appropriate for training word vectors or pre-training corpora, and can also be used to construct encyclopedia-style question-answering systems.

创建时间：

2019-02-14

原始信息汇总

数据集概述

维基百科(wiki2019zh)

数据量: 包含104万个词条，原始文件大小1.6G，压缩文件519M。
更新时间: 2019年2月7日。
数据结构: 每个词条包含id、url、title和text字段，其中title为词条标题，text为正文，通过"

"换行。

用途: 可用于预训练的语料或构建词向量，也可用于构建知识问答。

新闻语料(news2016zh)

数据量: 包含250万篇新闻，原始数据9G，压缩文件3.6G。
时间跨度: 2014-2016年。
数据结构: 每篇新闻包含news_id、title、content、source、time、keywords和desc字段。
用途: 可用于训练词向量或预训练的语料，也可用于训练标题生成模型或关键词生成模型。

百科类问答(baike2018qa)

数据量: 包含150万个问答，原始数据1G多，压缩文件663M。
数据结构: 每个问答包含qid、category、title、desc和answer字段。
用途: 可用于训练词向量或预训练的语料，也可用于构建百科类问答，利用类别信息进行监督训练。

数据集贡献

联系方式: 贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。
贡献奖励: 根据语料的质量和量级，选出前20个贡献者，寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值的物品。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集的构建，均是基于大规模中文文本的采集与处理。其中，wiki2019zh数据集是通过爬取2019年2月7日的维基百科中文词条，经过清洗、去重和压缩处理后形成；news2016zh数据集则汇集了2014至2016年间250万篇新闻，来源于6.3万个媒体，经过去重、分集处理后构建而成；baike2018qa数据集则由150万个问题及答案构成，涉及492个类别，同样经过去重和分集处理，确保了数据的多样性与可用性。

特点

这三个数据集的特点在于其规模宏大、内容丰富且格式统一。wiki2019zh数据集包含了104万个词条，覆盖了广泛的知识领域；news2016zh数据集则提供了丰富的新闻内容，适合进行文本分析和信息抽取；baike2018qa数据集的问答对形式，使其成为构建问答系统、进行句子相似性任务等自然语言处理任务的理想资源。此外，每个数据集都经过了严格的预处理，确保了数据的质量和一致性。

使用方法

用户可以根据具体需求，下载并使用这些数据集。使用时，需遵循数据集的结构定义，例如wiki2019zh数据集的每个条目包含id、url、title和text字段；news2016zh数据集的每个条目则包括news_id、title、content等字段；baike2018qa数据集的每个条目包含qid、category、title、desc和answer字段。用户可以根据这些字段进行数据读取、分析和模型训练等操作。同时，数据集的使用应遵守相应的版权和使用规定。

背景与挑战

背景概述

在2019年，中文自然语言处理领域面临着语料获取的难题，大规模中文语料库的缺乏限制了研究的深入和技术的进步。为此，相关研究人员和机构启动了一个名为「中文语料库」的项目，旨在贡献并扩充中文语料资源。该项目分两期目标，预计提供多个百万级和千万级的中文语料库。其中，维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)是该项目的重要成果，为中文自然语言处理领域提供了丰富的数据资源，极大地推动了相关研究的进展。

当前挑战

尽管这些数据集为研究提供了有力支撑，但在构建过程中也遇到了诸多挑战。首先，获取大规模、高质量的中文语料本身就是一项挑战，涉及到数据收集、清洗、格式化等多个环节。其次，数据集的多样性和平衡性也是一个挑战，如何确保数据覆盖不同领域和主题，同时避免偏差，是构建高质量数据集的关键。此外，随着技术的发展，数据集的更新和维护也成为一个长期挑战，需要持续投入资源以保证其时效性和可用性。

常用场景

经典使用场景

维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集，在中文自然语言处理领域具有重要的应用价值。其中，维基百科数据集因其内容丰富、覆盖面广，常被用作构建预训练语言模型和词向量的基础语料库；新闻语料数据集则因其时效性强、信息量大，适用于训练文本分类、情感分析等模型；百科问答数据集则因其包含问题和答案对，是构建问答系统、信息检索模型的重要资源。

实际应用

在实际应用中，这些数据集被广泛用于搜索引擎优化、智能客服、新闻推荐、语音识别等领域。它们帮助提升了机器理解中文语言的能力，优化了用户体验，推动了人工智能技术在中文环境下的实际应用。

衍生相关工作

基于这些数据集，衍生出了一系列相关的研究工作。包括但不限于构建大规模预训练模型、开发中文问答系统、进行文本数据挖掘等。这些工作进一步拓展了数据集的应用范围，推动了中文自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成