nlp_chinese_corpus

github2019-06-22 更新2024-05-31 收录

下载链接：

https://github.com/Ronggui/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

大规模中文自然语言处理语料，包括维基百科、新闻语料、百科问答等多个高质量数据集，用于支持中文NLP研究和模型训练。

A large-scale Chinese natural language processing corpus, encompassing high-quality datasets such as Wikipedia, news articles, and encyclopedic Q&A, designed to support Chinese NLP research and model training.

创建时间：

2019-06-22

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，可用于训练超大规模NLP模型；添加520万翻译语料(translation2019zh)。

数据集内容

维基百科(wiki2019zh)
- 数据量：100万个结构良好的中文词条
- 可能用途：通用中文语料，预训练语料，构建词向量，知识问答
- 结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 数据量：250万篇新闻，含关键词、描述
- 可能用途：通用中文语料，训练词向量，预训练语料，标题生成模型，关键词生成模型
- 结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 数据量：150万个带问题类型的问答
- 可能用途：通用中文语料，训练词向量，预训练语料，百科类问答
- 结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 数据量：410万个高质量社区问答
- 可能用途：构建百科类问答，话题预测模型，社区问答系统，通用中文语料，大模型预训练语料，词向量训练
- 结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 数据量：520万个中英文句子对
- 可能用途：训练中英文翻译系统，通用中文语料，词向量训练，预训练语料
- 结构：{"english": <english>, "chinese": <chinese>}

数据集贡献

贡献方式：发送邮件至nlp_chinese_corpus@163.com
贡献奖励：根据语料质量和量级，选出前20个贡献者，寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集的构建主要依托于互联网上的大规模中文文本资源，包括维基百科、新闻、百科问答、社区问答以及翻译文本等。构建过程中，首先对原始文本进行采集和清洗，确保数据的真实性和可用性。随后，通过技术手段对数据进行结构化处理，形成易于机器学习和自然语言处理的数据格式，如JSON。此外，数据集还进行了去重和划分训练集、验证集、测试集的处理，以保证数据的质量和适用性。

特点

nlp_chinese_corpus数据集的特点在于其规模宏大、来源多样、质量较高。它包含了百万级至亿级的中文文本数据，涵盖了从维基百科到社区问答的多种类型，为不同的自然语言处理任务提供了丰富的语料支持。数据集采用JSON格式存储，便于数据的读取和处理。同时，数据集还提供了类别信息、点赞数等额外元数据，为复杂任务提供了更多可能性。

使用方法

使用nlp_chinese_corpus数据集时，用户可以根据自己的需求选择相应的子数据集。数据集提供了详细的下载说明和使用示例，用户可以按照指导进行数据下载和预处理。对于构建模型，用户可以利用这些数据进行词向量训练、预训练任务或作为特征输入到各种自然语言处理模型中。此外，数据集还支持公开评测，用户可以参与评测任务以验证模型性能。

背景与挑战

背景概述

nlp_chinese_corpus数据集是一项旨在为中文自然语言处理领域发展贡献力量的重要工程。该数据集创建于2019年，由brightmart团队负责维护，致力于提供大规模的中文语料资源，以解决当时中文自然语言处理领域在获取大量语料方面的困难。数据集涵盖了从维基百科、新闻、百科问答、社区问答到翻译语料等多个方面的中文文本，为研究人员和开发者提供了丰富的资源，对推动中文NLP技术的发展起到了重要作用。

当前挑战

nlp_chinese_corpus数据集在构建过程中面临了多项挑战。首先，如何确保收集的语料质量高、覆盖面广是一个重要挑战。其次，数据集的构建和维护需要大量的人力物力投入，保证数据的更新和准确性也是一项艰巨的任务。此外，数据集在分类、标注和结构化方面也存在一定的挑战，这直接关系到数据集的可用性和对NLP任务的适用性。最后，如何平衡数据集的多样性和一致性，满足不同研究需求，也是数据集构建中需要考虑的问题。

常用场景

经典使用场景

nlp_chinese_corpus数据集是中文自然语言处理领域的重要资源，其经典使用场景包括用于训练词向量模型、构建预训练语料库、以及进行知识问答系统的构建。尤其是其中的百科问答和社区问答数据，为研究者提供了丰富的问答对，有助于模型的句法、语义理解和生成能力训练。

实际应用

在实际应用中，nlp_chinese_corpus数据集被广泛应用于中文信息处理、搜索引擎优化、智能客服系统、以及内容推荐系统等领域。它通过提供大规模的中文文本数据，助力于提升这些应用场景中的文本分析、理解和生成能力。

衍生相关工作

基于nlp_chinese_corpus数据集，研究者衍生出了一系列相关工作，包括但不限于构建更大规模的语料库、开发新的自然语言处理模型、以及提出更高效的文本理解和生成算法。这些工作进一步推动了中文自然语言处理技术的进步和产业发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集