维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)
收藏github2019-02-14 更新2024-05-31 收录
下载链接:
https://github.com/lhzz00/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
维基百科(wiki2019zh)包含104万个词条,可用于通用中文语料、预训练语料或构建知识问答。新闻语料(news2016zh)包含250万篇新闻,可用于训练词向量或预训练语料,也可用于训练标题生成模型或关键词生成模型。百科问答(baike2018qa)包含150万个问答,可用于训练词向量或预训练语料,也可用于构建百科类问答。
The Wikipedia (wiki2019zh) dataset comprises 1.04 million entries, suitable for general Chinese corpus, pre-training materials, or constructing knowledge-based question-answering systems. The news corpus (news2016zh) includes 2.5 million news articles, which can be utilized for training word vectors or as pre-training materials, as well as for developing headline generation models or keyword generation models. The encyclopedia Q&A (baike2018qa) dataset contains 1.5 million question-answer pairs, ideal for training word vectors or as pre-training materials, and also for building encyclopedia-style question-answering systems.
创建时间:
2019-02-14
原始信息汇总
数据集概述
维基百科(wiki2019zh)
- 规模: 104万个词条
- 文件大小: 原始文件1.6G,压缩文件519M
- 更新时间: 2019年2月7日
- 结构: 包含id, url, title, text字段,其中text通过"
"换行
- 用途: 通用中文语料,预训练语料,构建词向量,知识问答
新闻语料(news2016zh)
- 规模: 250万篇新闻
- 文件大小: 原始数据9G,压缩文件3.6G
- 时间跨度: 2014-2016年
- 结构: 包含news_id, title, content, source, time, keywords, desc字段
- 用途: 通用中文语料,训练词向量,预训练语料,标题生成模型,关键词生成模型
百科问答(baike2018qa)
- 规模: 150万个问答
- 文件大小: 原始数据1G多,压缩文件663M
- 更新时间: 2018年
- 结构: 包含qid, category, title, desc, answer字段
- 用途: 通用中文语料,训练词向量,预训练语料,百科类问答,监督训练,句子相似性任务
贡献语料
- 联系方式: nlp_chinese_corpus@163.com
- 贡献奖励: 根据语料质量和量级,选出前20个贡献者,提供键盘、鼠标、显示屏、无线耳机、智能音箱等奖励
搜集汇总
数据集介绍

构建方式
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集的构建,旨在为中文自然语言处理领域提供丰富的语料资源。其中,维基百科数据集通过爬取和提取维基百科网站的最新中文词条,新闻语料数据集则汇集了来自6.3万个媒体的不同时间段内的新闻,百科问答数据集则整理了大量的中文问答对,并按照类别进行了划分。
特点
这些数据集的特点在于:一是数据规模大,分别为百万级和千万级,满足了大规模训练的需求;二是数据多样性丰富,涵盖了不同领域的知识和信息,有助于模型的泛化能力;三是数据更新及时,能够反映最新的语言使用习惯和信息动态。
使用方法
使用这些数据集时,用户可以根据具体需求进行选择。例如,维基百科数据集适合用于构建词向量或进行知识问答的预训练;新闻语料数据集可以用于训练标题生成模型或关键词生成模型;百科问答数据集则可用于构建问答系统或进行句子相似性任务。用户在下载和使用数据集时,应遵循相应的数据使用规范和版权要求。
背景与挑战
背景概述
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集均为中文自然语言处理领域的重要资源。其中,wiki2019zh包含104万个维基百科词条,旨在为研究者提供丰富的中文文本信息;news2016zh则涵盖了2014-2016年间250万篇新闻,为文本分析和信息挖掘提供了大量实例;baike2018qa汇集了150万个百科问答,有助于问答系统的研究与开发。这些数据集的创建,始于2019年,由致力于中文自然语言处理研究的人员和机构发起,以解决中文语料获取困难的问题,对推动中文NLP领域的研究具有重大意义。
当前挑战
在数据集构建过程中,研究人员面临了多个挑战。首先,是确保语料的时效性和质量,避免陈旧和低质数据对研究的干扰。其次,是语料的多样性和覆盖面,需要从多个来源和类型中广泛收集数据,以满足不同研究需求。此外,数据集的规模也是一个挑战,如何高效处理和存储大规模数据,保证数据的可用性和可访问性,是必须解决的问题。在研究领域,这些数据集的应用还面临如何准确提取信息、构建有效模型以及处理数据不平衡等挑战。
常用场景
经典使用场景
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集,作为中文自然语言处理领域的重要资源,其经典使用场景主要集中于构建和训练自然语言处理模型。例如,维基百科数据集可用于构建预训练语言模型,以提升机器对中文语言的理解和生成能力;新闻语料数据集可用于训练文本分类、信息抽取等模型,从而提升模型对新闻文本的处理和分析能力;百科问答数据集则适用于构建问答系统,提升机器对用户提问的理解和回答的准确性。
解决学术问题
这三个数据集解决了中文自然语言处理领域中获取大规模、高质量中文语料难题,为学术研究提供了丰富的数据支持。例如,维基百科数据集有助于研究者在词向量、语言模型等任务上取得更好的效果;新闻语料数据集为文本分类、情感分析等研究提供了大量标注数据;百科问答数据集则为构建和应用问答系统提供了丰富的问答对,有助于提升相关研究的实用价值。
衍生相关工作
这三个数据集的发布促进了大量相关研究工作的开展。例如,研究者基于维基百科数据集进行了词向量训练,并在多个NLP任务上取得了显著效果;新闻语料数据集被用于文本分类、信息抽取等任务的模型训练和评估;百科问答数据集则催生了多种问答系统的构建和研究,推动了中文自然语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成



