nlp_chinese_corpus
收藏github2019-04-09 更新2024-05-31 收录
下载链接:
https://github.com/studyself/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含多个大规模中文自然语言处理数据集,如维基百科、新闻语料、百科问答等,旨在为中文NLP领域提供丰富的语料资源,支持预训练、词向量构建等多种应用。
This repository encompasses a variety of large-scale Chinese natural language processing datasets, including Wikipedia, news corpora, and encyclopedic Q&A, designed to provide abundant linguistic resources for the field of Chinese NLP, supporting applications such as pre-training and word vector construction.
创建时间:
2019-02-20
原始信息汇总
数据集概述
1. 维基百科(wiki2019zh)
- 规模: 104万个词条
- 数据大小: 原始文件1.6G,压缩文件519M
- 更新时间: 2019.2.7
- 结构:
{"id":<id>,"url":<url>,"title":<title>,"text":<text>} - 用途: 通用中文语料,预训练语料,构建词向量,知识问答
2. 新闻语料(news2016zh)
- 规模: 250万篇新闻
- 数据大小: 原始数据9G,压缩文件3.6G
- 时间跨度: 2014-2016年
- 结构:
{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>} - 用途: 通用中文语料,训练词向量,预训练语料,标题生成模型,关键词生成模型
3. 百科问答(baike2018qa)
- 规模: 150万个问答
- 数据大小: 原始数据1G多,压缩文件663M
- 更新时间: 2018年
- 结构:
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>} - 用途: 通用中文语料,训练词向量,预训练语料,百科类问答
4. 社区问答json版(webtext2019zh)
- 规模: 410万个问答
- 数据大小: 过滤后数据3.7G,压缩文件1.7G
- 时间跨度: 2015-2016年
- 结构:
{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>} - 用途: 构建百科类问答,话题预测模型,社区问答系统,通用中文语料,训练词向量
5. 翻译语料(translation2019zh)
- 规模: 520万个中英文平行语料
- 数据大小: 原始数据1.1G,压缩文件596M
- 结构:
{"english": <english>, "chinese": <chinese>} - 用途: 训练中英文翻译系统,通用中文语料,训练词向量
搜集汇总
数据集介绍

构建方式
nlp_chinese_corpus数据集的构建主要通过整合多个来源的中文文本数据,包括维基百科、新闻、百科问答、社区问答以及翻译语料,经过筛选、去重和格式化处理,构建成适用于中文自然语言处理任务的语料库。该数据集涵盖了从百万级到亿级的中文语料,满足了不同规模研究的需要。
特点
该数据集的特点在于规模宏大、种类丰富,涵盖了多种类型的中文文本,包括结构化良好的维基百科词条、实时新闻、百科问答、社区互动问答以及中英文翻译对。此外,数据集以json格式存储,便于处理和使用。每个数据集都经过了质量筛选,确保了数据的高质量和高可用性。
使用方法
使用nlp_chinese_corpus数据集时,用户可以根据具体的研究需求选择相应的子数据集。数据集提供了详细的下载链接和使用说明,用户可以直接下载并按照json格式解析使用。对于构建语言模型、词向量、问答系统等任务,该数据集提供了丰富的训练材料。同时,数据集的开放共享也促进了中文自然语言处理领域的研究发展。
背景与挑战
背景概述
nlp_chinese_corpus数据集,创建于2019年,由ReactiveCJ等贡献者共同构建,旨在为中文自然语言处理领域提供大规模、高质量的语料资源。该数据集涵盖了维基百科、新闻、百科问答、社区问答和翻译语料等多个方面的内容,为研究人员和开发者提供了丰富的数据支持,极大地推动了中文NLP技术的发展和应用。
当前挑战
在构建nlp_chinese_corpus数据集的过程中,研究人员面临了多方面的挑战。首先,如何从大量的原始数据中筛选和清洗出高质量的语料是一个重要的问题。其次,数据集的多样性和平衡性也是需要关注的重点,确保不同类型的数据都能得到充分的代表。此外,数据集的更新和维护也需要大量的工作和资源。在研究领域问题方面,该数据集解决了中文NLP中缺乏大规模、高质量语料的问题,但如何更有效地利用这些语料进行模型训练和评估,以及如何处理数据中的噪声和偏差,仍然是当前研究中的挑战。
常用场景
经典使用场景
nlp_chinese_corpus作为中文自然语言处理领域的重要资源,其经典使用场景在于为各类NLP任务提供海量的预训练语料,如构建词向量、预训练语言模型等。该数据集涵盖了维基百科、新闻、百科问答、社区问答以及翻译语料等多种类型,使得它适用于多样化的中文语言处理任务,如文本分类、信息检索、问答系统、机器翻译等。
实际应用
在实际应用中,nlp_chinese_corpus数据集可用于提升机器翻译的准确度,优化搜索引擎的检索效果,改善问答系统的响应质量,以及增强语音助手的语言理解能力。这些应用场景广泛服务于教育、客服、信息检索、智能硬件等多个领域,极大地推动了中文自然语言处理技术的商业化进程。
衍生相关工作
基于nlp_chinese_corpus数据集,研究者们已衍生出多项相关工作,如构建大规模预训练模型、开发细粒度的文本分类系统、实现高效的机器翻译系统等。这些工作不仅提升了中文NLP技术的研发水平,也为相关领域的学术交流和产业发展贡献了力量。
以上内容由遇见数据集搜集并总结生成



