nlp_chinese_corpus

github2019-04-23 更新2024-05-31 收录

下载链接：

https://github.com/F2windy/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

大规模中文自然语言处理语料，包括维基百科、新闻语料、百科问答等多个高质量数据集，用于支持中文NLP研究和模型训练。

A large-scale Chinese natural language processing corpus, encompassing high-quality datasets such as Wikipedia, news articles, and encyclopedic Q&A, designed to support Chinese NLP research and model training.

创建时间：

2019-04-23

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)

数据集内容

维基百科(wiki2019zh)
- 数量：100万个结构良好的中文词条
- 用途：通用中文语料，预训练语料，构建词向量，知识问答
- 结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 数量：250万篇新闻，含关键词、描述
- 用途：通用中文语料，训练词向量，预训练语料，标题生成模型，关键词生成模型
- 结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 数量：150万个带问题类型的问答
- 用途：通用中文语料，训练词向量，预训练语料，百科类问答
- 结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 数量：410万个高质量社区问答
- 用途：构建百科类问答，话题预测模型，社区问答系统，通用中文语料，大模型预训练语料，词向量训练
- 结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 数量：520万个中英文句子对
- 用途：中英文翻译系统，通用中文语料，词向量训练，预训练语料
- 结构：{"english": <english>, "chinese": <chinese>}

贡献语料

贡献方式：发送邮件至nlp_chinese_corpus@163.com
贡献奖励：根据语料质量和量级，选出前20个贡献者，寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集的构建主要通过搜集和整合多种类型的中文文本资源，包括维基百科、新闻、百科问答、社区问答以及中英文翻译语料等，形成了一个大规模、多样化的中文语料库。构建过程中注重数据的质和量，对原始数据进行去重、清洗和预处理，确保了数据集的高质量和可用性。

特点

该数据集的特点在于其规模宏大、类型丰富、来源多样。它包含了从维基百科到社区问答的各种中文文本，既有结构化的数据，也有非结构化的文本，适用于不同的NLP任务。此外，数据集还经过了严格的清洗和预处理，保证了数据的质量和一致性。

使用方法

用户可以通过数据集提供的下载链接获取所需的数据子集。使用时，可以根据不同的NLP任务选择相应的数据类型，如使用维基百科数据进行预训练、利用新闻语料进行词向量训练、采用问答数据进行问答系统构建等。数据集提供了详细的说明文档和例子，方便用户理解数据结构和用途。

背景与挑战

背景概述

nlp_chinese_corpus是一个旨在贡献中文语料、推动中文自然语言处理领域发展的项目。该项目由ReactiveCJ等人或组织发起，创建于2019年，目的是为了解决当时中文语料获取困难的问题。它包含了多个数据子集，如维基百科、新闻语料、百科问答、社区问答和翻译语料等，涵盖了从百万级到亿级的中文数据，对中文NLP研究具有重要的支撑作用。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1）确保语料的多样性和质量；2）处理大规模数据集的存储和传输问题；3）实现语料的清洗和预处理以满足不同研究需求。在所解决的领域问题上，该数据集面临的挑战包括：如何通过这些语料有效提升NLP模型的性能，特别是在语言模型预训练、机器翻译、问答系统等任务上的应用。

常用场景

经典使用场景

nlp_chinese_corpus作为中文自然语言处理领域的重要资源，其经典使用场景主要在于为各类NLP模型提供丰富的预训练语料。例如，维基百科(wiki2019zh)和新闻语料(news2016zh)因其结构良好和内容丰富，常被用于训练词向量模型和构建语言模型，从而提高模型的语义理解和生成能力。社区问答(webtext2019zh)则因其真实的用户互动数据，成为构建问答系统和对话系统的理想数据源。

解决学术问题

该数据集解决了中文NLP研究中缺乏大规模、高质量语料的问题。它为学术研究者提供了丰富的数据资源，有助于推动词向量、文本分类、机器翻译等任务的进展。特别是，它为构建和评估中文问答、文本生成等复杂模型提供了基准数据，对提升中文信息处理技术的准确性和实用性具有重要意义。

衍生相关工作

基于nlp_chinese_corpus的数据集，已经衍生出了一系列相关研究工作。学者们利用这些数据集进行了词向量训练、文本分类、情感分析、机器翻译等多种NLP任务的研究，并在国际学术会议和期刊上发表了众多研究成果。此外，这些数据集也促进了中文NLP模型的开发和开源，为社区的共同进步做出了贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集