nlp_chinese_corpus
收藏github2019-09-19 更新2024-05-31 收录
下载链接:
https://github.com/yuxuan2015/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
大规模中文自然语言处理语料,包含多个子数据集,如维基百科、新闻语料、百科问答等,用于支持中文自然语言处理研究和应用。
A large-scale Chinese natural language processing corpus, encompassing multiple sub-datasets such as Wikipedia, news corpora, and encyclopedic Q&A, designed to support research and applications in Chinese natural language processing.
创建时间:
2019-05-30
原始信息汇总
数据集概述
1. 维基百科(wiki2019zh)
- 规模: 100万个结构良好的中文词条
- 用途: 通用中文语料,预训练语料,构建词向量,知识问答
- 结构:
{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
2. 新闻语料(news2016zh)
- 规模: 250万篇新闻,含关键词、描述
- 用途: 通用中文语料,训练词向量,预训练语料,标题生成模型,关键词生成模型
- 结构:
{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
3. 百科问答(baike2018qa)
- 规模: 150万个带问题类型的问答
- 用途: 通用中文语料,训练词向量,预训练语料,百科类问答
- 结构:
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
4. 社区问答json版(webtext2019zh)
- 规模: 410万个高质量社区问答
- 用途: 构建百科类问答,话题预测模型,社区问答系统,通用中文语料,大模型预训练语料,词向量训练
- 结构:
{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
5. 翻译语料(translation2019zh)
- 规模: 520万个中英文平行语料
- 用途: 训练中英文翻译系统,通用中文语料,训练词向量,预训练语料
- 结构:
{"english": <english>, "chinese": <chinese>}
数据集更新
- 维基百科json版(wiki2019zh): 104万个词条,数据更新时间:2019.2.7
- 新闻语料json版(news2016zh): 250万篇新闻,新闻内容跨度:2014-2016年
- 百科类问答json版(baike2018qa): 150万个问答,数据更新时间:2018年
- 社区问答json版(webtext2019zh): 410万个问答,数据跨度:2015-2016年
- 翻译语料(translation2019zh): 520万个中英文平行语料
数据集目标
- 一期目标: 10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
- 二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
搜集汇总
数据集介绍

构建方式
nlp_chinese_corpus数据集的构建主要通过网络爬虫技术收集各类中文文本,包括维基百科、新闻、百科问答、社区问答以及翻译语料等,经过数据清洗、去重和过滤后,形成了五个主要的数据子集。其中,数据涵盖了从百万级到亿级的规模,旨在满足不同规模需求的自然语言处理任务。
特点
该数据集的特点在于其规模宏大、种类丰富、来源多样。它不仅包含了结构化的数据,如维基百科和新闻语料,还包含了非结构化的数据,如社区问答和翻译语料。每个数据子集都有明确的用途和结构定义,如百科问答数据集适用于构建知识问答系统,社区问答数据集适合训练大规模的NLP模型。
使用方法
用户可以根据自己的需求选择相应的数据子集。下载后,可以直接使用这些数据集进行词向量训练、预训练任务、构建问答系统、进行话题预测等。每个数据集都提供了详细的说明文档,用户可以按照文档中的指导进行数据集的使用和操作。此外,项目还提供了贡献语料的途径,鼓励社区参与数据集的扩充和完善。
背景与挑战
背景概述
nlp_chinese_corpus数据集,创建于2019年,是由ReactiveCJ等贡献者通过邮件征集和筛选的方式,致力于构建大规模开放共享的中文语料库。该数据集涵盖了维基百科、新闻、百科问答、社区问答以及翻译语料等多个领域,解决了中文自然语言处理领域在获取大量高质量语料方面的难题,对推动中文NLP技术的发展起到了关键作用。
当前挑战
在构建过程中,该数据集面临了多个挑战,包括如何确保语料的多样性和质量,如何有效去重以及如何构建适用于不同任务的语料子集。此外,数据集在解决领域问题如图像分类、自然语言生成、机器翻译等方面也面临挑战,需要不断优化数据结构和增强数据标注的准确性。
常用场景
经典使用场景
nlp_chinese_corpus数据集为中文自然语言处理领域提供了丰富的语料资源。其经典使用场景包括用于预训练语言模型,构建词向量,以及作为机器翻译、问答系统、文本生成等任务的训练数据。该数据集包含了多样化的中文文本,如维基百科、新闻、百科问答、社区问答以及翻译语料,能够助力研究者深入探索中文语言处理的各个方面。
衍生相关工作
基于nlp_chinese_corpus数据集,研究者们已经衍生出了一系列相关工作。这些工作包括但不限于构建大规模的预训练语言模型,开展跨领域的文本分类研究,以及利用数据集中的问答对进行机器阅读理解的任务。此外,还有研究利用该数据集进行情感分析、实体识别等自然语言处理任务的探索。
数据集最近研究
最新研究方向
该数据集最新研究方向主要集中于中文自然语言处理领域,如构建词向量、预训练模型、百科类问答、社区问答系统、话题预测模型以及中英文翻译系统等。学者们利用这些大规模中文语料进行深度学习模型的训练和优化,以提升模型的语义理解和生成能力,进一步推动中文自然语言处理技术的发展。同时,该数据集也被用于研究和评测模型在各类NLP任务中的表现,如句子相似性任务、文本写作模型的效果测评等,对促进该领域的研究具有积极影响。
以上内容由遇见数据集搜集并总结生成



