nlp_chinese_corpus

github2019-02-23 更新2024-05-31 收录

下载链接：

https://github.com/zhuanghuihui/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

大规模中文自然语言处理语料库，包含多个子数据集，如维基百科、新闻语料、百科问答等，用于支持中文自然语言处理研究和应用。

A large-scale Chinese natural language processing corpus, encompassing multiple sub-datasets such as Wikipedia, news corpora, and encyclopedic Q&A, designed to support research and applications in Chinese natural language processing.

创建时间：

2019-02-21

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，包含410万个高质量社区问答，适合训练超大模型。
添加520万翻译语料(translation2019zh)，包含中英文句子对。

数据集内容

维基百科(wiki2019zh)
- 包含100万个结构良好的中文词条。
- 数据结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 包含250万篇新闻，含关键词、描述。
- 数据结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 包含150万个带问题类型的问答。
- 数据结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 包含410万个高质量社区问答，适合训练超大模型。
- 数据结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 包含520万个中英文平行语料。
- 数据结构：{"english": <english>, "chinese": <chinese>}

数据集用途

通用中文语料，用于训练词向量或预训练语料。
构建知识问答、标题生成、关键词生成等模型。
训练话题预测模型、社区问答(cQA)系统。
用于中英文翻译系统。

数据集贡献

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。
贡献者将根据语料的质量和量级获得感谢，包括列出贡献者名单和赠送物品。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集的构建主要通过收集和整理中文维基百科、新闻、百科问答、社区问答以及中英文翻译语料等多样化的中文资源。构建过程中注重数据的多样性和质量，对原始数据进行去重、筛选和预处理，确保了数据集的实用性和有效性。

特点

该数据集的特点在于其规模宏大、来源多样、内容丰富。包含了百万级别的中文词条、新闻、问答等，覆盖了广泛的主题和领域，为中文自然语言处理任务提供了极为丰富的语料支持。同时，数据集还提供了结构化的JSON格式，便于研究人员进行数据解析和处理。

使用方法

使用该数据集时，用户可以根据自己的需求选择相应的子数据集。数据集以JSON格式存储，可以直接下载并用于模型训练、预训练、特征工程等任务。针对不同的应用场景，如词向量训练、问答系统构建、文本生成等，用户可以采用适当的数据处理方法和模型架构来充分利用数据集。

背景与挑战

背景概述

nlp_chinese_corpus数据集诞生于2019年，是一项由ReactiveCJ等贡献者推动的旨在为中文自然语言处理领域发展贡献力量的大型语料库项目。该数据集的核心研究问题是缓解中文自然语言处理领域在高质量语料获取上的困难，它汇聚了包括维基百科、新闻、百科问答、社区问答以及翻译语料等多种类型的中文语料，为研究人员提供了丰富的文本资源。自推出以来，该数据集对中文自然语言处理领域产生了显著影响，促进了相关技术的发展。

当前挑战

nlp_chinese_corpus在构建过程中面临了多方面的挑战。首先，在语料收集方面，需确保数据的多样性和高质量，同时还要处理版权和隐私等问题。其次，数据清洗和预处理是构建过程中的另一大挑战，需要去除噪声、统一格式、处理缺失值等。此外，大规模数据集的存储和分发也对技术提出了较高要求。在研究领域，如何高效利用这些语料进行模型训练、避免过拟合以及提升模型的泛化能力，是当前面临的挑战之一。

常用场景

经典使用场景

nlp_chinese_corpus数据集在中文自然语言处理领域具有重要的应用价值。其经典使用场景包括构建大规模的预训练语言模型，提供高质量的中文文本用于模型训练，以及作为文本数据源进行知识问答、文本分类、情感分析等多种NLP任务的训练与测试。

实际应用

在实际应用中，nlp_chinese_corpus数据集可用于提升机器翻译、智能客服、信息检索等系统的性能。例如，利用该数据集训练的模型可以更好地理解和生成中文文本，提高翻译的准确性和流畅度，增强智能客服的问答能力。

衍生相关工作

基于nlp_chinese_corpus数据集，研究者们已经衍生出多项相关工作，如构建特定领域的文本分类器、情感分析模型，以及用于评估和比较不同NLP模型性能的基准测试。这些工作推动了中文NLP技术的进步，促进了相关领域的学术交流和技术发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集