维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)
收藏github2019-03-26 更新2024-05-31 收录
下载链接:
https://github.com/yyht/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
维基百科(wiki2019zh)包含104万个词条,可用于通用中文语料、预训练的语料或构建知识问答。新闻语料(news2016zh)包含250万篇新闻,可用于训练词向量或预训练的语料,也可用于训练标题生成模型或关键词生成模型。百科问答(baike2018qa)包含150万个问答,可用于训练词向量或预训练的语料,也可用于构建百科类问答。
The Wikipedia (wiki2019zh) dataset comprises 1.04 million entries, suitable for general Chinese corpus, pre-training materials, or constructing knowledge-based question-answering systems. The news corpus (news2016zh) includes 2.5 million news articles, which can be utilized for training word vectors or as pre-training materials, as well as for developing headline generation models or keyword generation models. The encyclopedia Q&A (baike2018qa) dataset contains 1.5 million question-answer pairs, ideal for training word vectors or as pre-training materials, and also for building encyclopedia-style question-answering systems.
创建时间:
2019-02-11
原始信息汇总
数据集概述
1. 维基百科json版(wiki2019zh)
- 规模: 包含1,043,224个词条,原始文件大小1.6G,压缩文件519M。
- 更新时间: 2019年2月7日。
- 结构: 数据格式为JSON,包含字段:id, url, title, text。
- 示例: 包含词条标题和正文内容。
- 用途: 可用于预训练语料、构建词向量或知识问答系统。
2. 新闻语料json版(news2016zh)
- 规模: 包含250万篇新闻,原始数据9G,压缩文件3.6G。
- 时间范围: 2014-2016年。
- 结构: 数据格式为JSON,包含字段:news_id, title, content, source, time, keywords, desc。
- 示例: 包含新闻标题、内容、来源、时间等信息。
- 用途: 可用于预训练语料、训练词向量、标题生成模型或关键词生成模型。
3. 百科类问答json版(baike2018qa)
- 规模: 包含150万个问答,原始数据1G多,压缩文件663M。
- 更新时间: 2018年。
- 结构: 数据格式为JSON,包含字段:qid, category, title, desc, answer。
- 示例: 包含问题、答案及类别信息。
- 用途: 可用于预训练语料、训练词向量或构建百科类问答系统。
数据集贡献
- 联系方式: 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com。
- 贡献奖励: 根据语料的质量和量级,选出前20个贡献者,提供键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。
搜集汇总
数据集介绍

构建方式
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集均采用JSON格式构建,其中包含大量中文文本数据。wiki2019zh数据集更新于2019年2月7日,包含104万个维基百科词条;news2016zh数据集则涵盖2014至2016年间的250万篇新闻,来源于6.3万个媒体;baike2018qa数据集含有150万个问题及其答案,涵盖492个类别。各数据集均经过去重处理,并划分为训练集、验证集和测试集,以确保数据的质量和多样性。
特点
这些数据集的特点在于其大规模的中文文本资源,适合用于自然语言处理任务中的预训练和模型构建。wiki2019zh提供了丰富的知识库内容,news2016zh展现了多样化的新闻视角,而baike2018qa则专注于问答对,有助于模型的问答能力训练。每个数据集都采用了结构化的JSON格式存储,便于数据的读取和处理。此外,数据集的持续更新和扩充也保证了其时效性和可用性。
使用方法
使用这些数据集时,用户可以根据需要下载数据集的压缩文件,并解压后按照JSON格式进行读取。数据集适用于词向量训练、预训练任务、构建知识问答系统、进行标题生成和关键词提取等自然语言处理任务。用户需要根据具体任务的需求,选择合适的数据集部分进行训练和验证。同时,数据集的提供者还鼓励用户在验证集上报告模型的准确率,并提供了贡献语料的途径,以促进中文自然语言处理领域的发展。
背景与挑战
背景概述
在2019年,针对中文自然语言处理领域缺乏大规模语料的现状,相关研究人员和机构启动了一个旨在贡献中文语料的项目。该项目一期和二期目标分别指向百万级和千万级中文语料库的构建。其中,维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集是该项目的成果之一。这些数据集为研究人员提供了丰富的中文文本资源,有助于词向量训练、预训练语料构建、知识问答以及模型训练等任务,对推动中文自然语言处理领域的研究具有重要意义。
当前挑战
尽管这些数据集为中文自然语言处理领域提供了宝贵的资源,但在构建和使用过程中仍面临一些挑战。构建挑战包括如何确保语料的时效性、多样性和质量,以及如何处理大规模数据集的存储和传输问题。研究挑战则体现在如何利用这些数据集有效地进行模型训练,解决如文本表示、语义理解、以及跨领域应用等问题。此外,数据集的标注一致性、类别的均衡性也是在使用过程中需要关注的要点。
常用场景
经典使用场景
维基百科(wiki2019zh)、新闻语料(news2016zh)、百科问答(baike2018qa)三个数据集,作为中文自然语言处理领域的重要资源,其经典使用场景在于为深度学习模型提供丰富的训练数据。其中,维基百科数据集常用于构建和预训练语言模型,以改善自然语言理解和生成任务;新闻语料数据集适用于训练文本分类、情感分析及信息抽取等模型;百科问答数据集则专注于提供问答对,服务于问答系统和知识图谱构建等应用。
解决学术问题
这些数据集解决了中文自然语言处理领域中的多个学术研究问题,如词汇嵌入的准确性、文本理解的深度和广度、信息检索的效率等。通过使用这些大规模的中文语料库,研究者能够训练出更加精确的模型,进而提高语言识别、语义理解、机器翻译等任务的性能,对于推动中文信息处理技术的发展具有重要的意义和影响。
衍生相关工作
基于这些数据集,学术界和工业界衍生出了众多经典工作。包括但不限于构建高质量的中文词向量、开发高效的文本分类算法、实现精准的问答匹配系统等。这些成果进一步推动了中文自然语言处理技术的进步,并为相关领域的深入研究奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



