nlp_chinese_corpus

github2019-05-21 更新2024-05-31 收录

下载链接：

https://github.com/GandalfLiu/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

提供大规模中文自然语言处理语料，包括维基百科、新闻语料、百科问答等多种类型的数据集，旨在帮助中文NLP领域的研究和应用。

This dataset provides a large-scale corpus for Chinese natural language processing (NLP), encompassing various types of data such as Wikipedia entries, news articles, and encyclopedic Q&A. It is designed to support research and applications in the field of Chinese NLP.

创建时间：

2019-05-21

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大规模NLP模型
添加520万翻译语料(translation2019zh)

数据集内容

维基百科(wiki2019zh)
- 包含100万个结构良好的中文词条
- 数据结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 包含250万篇新闻，含关键词、描述
- 数据结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 包含150万个带问题类型的问答
- 数据结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 包含410万个高质量社区问答
- 数据结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 包含520万个中英文平行语料
- 数据结构：{"english": <english>, "chinese": <chinese>}

数据集用途

用于训练词向量、预训练语料、构建知识问答、标题生成模型、关键词生成模型、话题预测模型、社区问答系统等。

数据集贡献

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com
贡献者将根据语料的质量和量级获得奖励。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集通过广泛收集互联网上的中文内容，包括维基百科、新闻、百科问答、社区问答以及翻译语料，构建了一个多样化的中文自然语言处理训练资源库。数据集的构建采用了自动化处理和人工审核相结合的方式，确保了语料的规模和质量。

特点

该数据集的特点在于其内容的多样性和高质量。涵盖了从维基百科到日常社区问答的各种中文语言风格和使用场景，提供了丰富的上下文信息，有助于模型理解和生成中文语言。此外，数据集经过了严格的去重和质量控制，确保了训练模型的效率和准确度。

使用方法

使用该数据集时，用户可以根据不同的需求和模型类型选择相应的子数据集。例如，维基百科数据适合于构建知识库和预训练语言模型；新闻语料可用于训练标题生成和关键词提取模型；百科和社区问答数据则适用于构建问答系统和进行话题预测。用户需要按照数据集提供的结构化格式进行读取和预处理，以便于后续的模型训练和评估。

背景与挑战

背景概述

nlp_chinese_corpus数据集是一款旨在推动中文自然语言处理领域发展的开源项目，创建于2019年。该项目由一系列中文语料库组成，包括维基百科、新闻、百科问答、社区问答和翻译语料，其核心研究问题是提供大规模、高质量的中文语料，以促进中文NLP技术的进步。项目由多个研究人员和机构共同维护，对中文信息处理领域产生了重要影响。

当前挑战

该数据集在构建过程中遇到的挑战包括：1）如何收集和整合大规模的中文语料资源；2）如何确保语料的多样性和高质量；3）如何处理语料中的噪声和错误。所解决的领域问题是中文自然语言处理中的数据稀缺性，特别是针对大规模、高质量的中文语料。这些挑战对于构建有效的NLP模型至关重要。

常用场景

经典使用场景

nlp_chinese_corpus作为中文自然语言处理领域的重要资源，其经典使用场景主要集中在训练和改进自然语言处理模型。例如，使用wiki2019zh进行词向量训练，以及采用webtext2019zh进行大规模模型的预训练，均为该数据集的经典应用。

实际应用

在实际应用中，nlp_chinese_corpus的数据被广泛应用于中文搜索引擎优化、智能客服系统构建、机器翻译服务等领域，显著提升了相关应用的性能和用户体验。

衍生相关工作

基于nlp_chinese_corpus的数据集，衍生出了一系列相关研究工作。包括但不限于构建高质量的中文词向量模型、开发高效的中文问答系统、以及提升中英翻译模型的准确性和流畅度。这些工作进一步推动了中文自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集