nlp_chinese_corpus

github2019-09-05 更新2024-05-31 收录

下载链接：

https://github.com/sly123197811/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

大规模中文自然语言处理语料库，包含多种类型的中文语料，如维基百科、新闻、百科问答等，用于支持中文自然语言处理的研究和应用。

A large-scale Chinese natural language processing corpus, encompassing a variety of Chinese language materials such as Wikipedia, news, and encyclopedic Q&A, designed to support research and applications in Chinese natural language processing.

创建时间：

2019-08-15

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)

数据集内容

维基百科(wiki2019zh)
- 数量：100万个结构良好的中文词条
- 用途：通用中文语料，预训练语料，构建词向量，知识问答
- 结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 数量：250万篇新闻，含关键词、描述
- 用途：通用中文语料，训练词向量，预训练语料，标题生成模型，关键词生成模型
- 结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 数量：150万个带问题类型的问答
- 用途：通用中文语料，训练词向量，预训练语料，百科类问答
- 结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 数量：410万个高质量社区问答
- 用途：构建百科类问答，话题预测模型，社区问答系统，通用中文语料，大模型预训练语料
- 结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 数量：520万个中英文平行语料
- 用途：训练中英文翻译系统，通用中文语料，训练词向量，预训练语料
- 结构：{"english": <english>, "chinese": <chinese>}

数据集贡献

贡献方式：发送邮件至nlp_chinese_corpus@163.com
贡献奖励：根据语料质量和量级，选出前20个贡献者，寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集通过广泛收集和整理互联网上的中文内容，构建了包含维基百科、新闻、百科问答、社区问答以及翻译语料等多个部分的大型中文语料库。其中，各部分数据均经过筛选、去重和结构化处理，以确保数据的质量和可用性。

特点

该数据集的特点在于其规模宏大、内容丰富多样，涵盖了从日常生活到专业知识等多个领域。同时，数据集经过精心设计，具有清晰的结构化格式，易于机器读取和处理。此外，它提供了不同类型的数据，如问答对、翻译对等，适用于多种自然语言处理任务。

使用方法

使用该数据集时，用户可以根据具体需求选择相应的数据子集。例如，若需进行词向量训练，可以选择维基百科或新闻语料；若需构建问答系统，则可以选择百科问答或社区问答数据。数据集提供了详细的下载说明和使用示例，用户可以按照指导进行数据下载和预处理，进而应用于模型训练或其它研究任务。

背景与挑战

背景概述

nlp_chinese_corpus数据集诞生于2019年，是在中文自然语言处理领域具有重要影响力的资源库。该数据集由多个子数据集构成，包括百万级别的中文维基百科、新闻、百科问答和社区问答等语料，以及大规模的中英文翻译语料。其创建旨在解决中文自然语言处理领域缺乏大规模语料的问题，由brightmart团队负责维护，并得到了广泛的应用和引用。

当前挑战

nlp_chinese_corpus在构建过程中面临了诸多挑战，其中包括确保语料的多样性、质量和规模，同时还要解决数据清洗、去重和格式统一等问题。此外，该数据集在解决领域问题如提高词向量训练质量、构建知识问答系统、话题预测等方面也面临一定的挑战，需要不断优化数据集结构和内容，以适应不断发展的自然语言处理技术需求。

常用场景

经典使用场景

nlp_chinese_corpus数据集是中文自然语言处理领域的重要资源，其经典使用场景包括构建和预训练语言模型、词向量训练、知识问答构建、话题预测、社区问答系统训练等。例如，维基百科语料（wiki2019zh）因其结构良好的特点，常被用于预训练大型语言模型，以改善自然语言理解任务的表现。

实际应用

在实际应用中，nlp_chinese_corpus数据集可被用于开发和优化各种自然语言处理应用，如搜索引擎、智能客服、机器翻译系统等。社区问答数据集（webtext2019zh）因其覆盖了广泛的话题和高质量的问题回答，对于构建智能问答机器人尤为有用。

衍生相关工作

基于nlp_chinese_corpus数据集，衍生出了一系列相关研究工作。例如，研究者可以利用这些数据集训练新的语言模型，开展跨领域的文本分类、情感分析等任务，或者结合数据集进行语言模型的zero-shot学习效果评估，推动中文自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集