nlp_chinese_corpus
收藏github2019-04-13 更新2024-05-31 收录
下载链接:
https://github.com/gleke/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
大规模中文自然语言处理语料,包含多个子数据集,如维基百科、新闻语料、百科问答等,用于支持中文NLP研究和模型训练。
A large-scale Chinese natural language processing corpus, encompassing multiple sub-datasets such as Wikipedia, news corpora, and encyclopedic Q&A, designed to support Chinese NLP research and model training.
创建时间:
2019-04-13
原始信息汇总
数据集概述
1. 维基百科(wiki2019zh)
- 数据量: 104万个词条
- 文件大小: 原始文件1.6G,压缩文件519M
- 更新时间: 2019年2月7日
- 结构:
{"id":<id>,"url":<url>,"title":<title>,"text":<text>} - 用途: 通用中文语料,预训练语料,构建词向量,知识问答
2. 新闻语料(news2016zh)
- 数据量: 250万篇新闻
- 文件大小: 原始数据9G,压缩文件3.6G
- 时间跨度: 2014-2016年
- 结构:
{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>} - 用途: 通用中文语料,预训练语料,词向量训练,标题生成模型,关键词生成模型
3. 百科问答(baike2018qa)
- 数据量: 150万个问答
- 文件大小: 原始数据1G多,压缩文件663M
- 更新时间: 2018年
- 结构:
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>} - 用途: 通用中文语料,预训练语料,词向量训练,百科类问答
4. 社区问答json版(webtext2019zh)
- 数据量: 410万个问答
- 文件大小: 过滤后数据3.7G,压缩文件1.7G
- 时间跨度: 2015-2016年
- 结构:
{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>} - 用途: 构建百科类问答,话题预测模型,社区问答系统,预训练语料,词向量训练
5. 翻译语料(translation2019zh)
- 数据量: 520万个中英文句子对
- 文件大小: 原始数据1.1G,压缩文件596M
- 结构:
{"english": <english>, "chinese": <chinese>} - 用途: 中英文翻译系统,预训练语料,词向量训练
数据集目标
- 一期目标: 10个百万级中文语料 & 3个千万级中文语料(2019年5月1日)
- 二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
数据集贡献
- 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com
- 贡献者将根据语料质量和量级获得感谢,包括物质奖励。
搜集汇总
数据集介绍

构建方式
nlp_chinese_corpus数据集的构建基于大规模的中文语料收集与整理,涵盖了维基百科、新闻、百科问答、社区问答以及翻译语料等多个领域。数据集的构建过程包括原始数据的筛选、清洗、格式化以及分词处理,确保语料的质量和结构化。此外,数据集还进行了去重和划分,分为训练集、验证集和测试集,以支持不同类型的自然语言处理任务。
特点
该数据集具有多样性和大规模的特点,包含了100万个维基百科词条、250万篇新闻、150万个百科问答、410万个社区问答以及520万个中英文翻译句子对。这些语料不仅覆盖了广泛的主题和领域,还具有高质量和结构化的特点,适合用于训练大规模的自然语言处理模型。此外,数据集还提供了丰富的元数据,如关键词、描述、来源和时间戳,增强了数据的可利用性。
使用方法
nlp_chinese_corpus数据集适用于多种自然语言处理任务,包括但不限于词向量训练、预训练语言模型、文本分类、问答系统构建以及机器翻译等。用户可以根据具体任务需求,选择相应的子数据集进行训练和验证。数据集的结构化格式使得数据加载和处理变得简单,支持多种编程语言和深度学习框架。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手和应用。
背景与挑战
背景概述
随着自然语言处理(NLP)技术的快速发展,中文语料库的需求日益增长。然而,高质量、大规模的中文语料获取一直是一个难题。nlp_chinese_corpus数据集由一群致力于推动中文NLP发展的研究人员和机构创建,旨在为学术界和工业界提供丰富的中文语料资源。该数据集于2019年启动,计划分两期完成,目标包括10个百万级和3个千万级的中文语料库。截至2019年底,数据集已包含维基百科、新闻、百科问答、社区问答和翻译语料等多种类型的语料,极大地丰富了中文NLP研究的资源库。
当前挑战
尽管nlp_chinese_corpus数据集为中文NLP研究提供了宝贵的资源,但其构建过程中仍面临诸多挑战。首先,语料的多样性和质量控制是一个持续的难题,确保语料的广泛性和代表性需要大量的筛选和处理工作。其次,数据集的更新和维护也是一个挑战,随着时间的推移,语料的时效性和相关性需要不断更新以保持其价值。此外,数据集的开放性和共享机制也需要进一步完善,以确保其能够持续吸引更多的贡献者和用户,从而推动整个领域的发展。
常用场景
经典使用场景
nlp_chinese_corpus数据集在中文自然语言处理领域具有广泛的应用。其经典使用场景包括构建通用中文语料库,用于预训练大规模语言模型,如BERT、GPT等。此外,该数据集还可用于训练词向量模型,提升中文文本的表示能力。通过丰富的语料类型,如维基百科、新闻、问答等,研究人员可以进行多任务学习,提升模型的泛化能力。
实际应用
在实际应用中,nlp_chinese_corpus数据集可用于构建智能客服系统、自动翻译工具、文本生成模型等。例如,通过训练基于该数据集的问答模型,企业可以开发出高效的中文智能客服系统,提升客户服务质量。此外,该数据集还可用于开发自动翻译工具,促进中英文之间的无障碍交流。
衍生相关工作
nlp_chinese_corpus数据集的发布催生了一系列相关研究和工作。例如,基于该数据集的预训练语言模型在中文文本分类、情感分析等任务中表现优异。此外,研究人员还利用该数据集开发了多种中文词向量模型,提升了中文文本的表示能力。这些衍生工作不仅丰富了中文自然语言处理的工具库,还推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成



