nlp_chinese_corpus

github2023-07-19 更新2024-05-31 收录

下载链接：

https://github.com/zhouyong1234/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含多个中文自然语言处理数据集，如维基百科、新闻语料、百科问答等，旨在为中文自然语言处理领域提供丰富的语料资源，支持预训练、词向量构建等多种应用。

This repository encompasses a variety of Chinese natural language processing datasets, including Wikipedia entries, news corpora, and encyclopedic Q&A, designed to furnish the field of Chinese natural language processing with a wealth of corpus resources. It supports a range of applications such as pre-training and word vector construction.

创建时间：

2019-06-12

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)

主要数据集详情

维基百科(wiki2019zh)
- 数据量：100万个结构良好的中文词条
- 用途：通用中文语料，预训练语料，构建词向量，知识问答
- 结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 数据量：250万篇新闻，含关键词、描述
- 用途：通用中文语料，训练词向量，预训练语料，标题生成，关键词生成
- 结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 数据量：150万个带问题类型的问答
- 用途：通用中文语料，训练词向量，预训练语料，百科类问答
- 结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 数据量：410万个高质量社区问答
- 用途：构建百科类问答，话题预测，社区问答系统，通用中文语料，大模型预训练
- 结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 数据量：520万个中英文句子对
- 用途：训练中英文翻译系统，通用中文语料，训练词向量，预训练语料
- 结构：{"english": <english>, "chinese": <chinese>}

贡献语料

贡献方式：发送邮件至nlp_chinese_corpus@163.com
贡献奖励：根据语料质量和量级，选出前20个贡献者，寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集的构建依托于多种来源的中文语料，包括维基百科、新闻、百科问答、社区问答以及翻译语料。这些语料经过严格的筛选和整理，确保数据的多样性和高质量。维基百科部分包含了104万个结构良好的中文词条，新闻语料则涵盖了250万篇新闻，百科问答部分提供了150万个带问题类型的问答，社区问答部分则包含了410万个高质量问答，翻译语料部分则提供了520万个中英文句子对。所有数据均经过去重和划分，分为训练集、验证集和测试集，以适应不同的研究需求。

特点

该数据集的特点在于其广泛的覆盖范围和高质量的数据内容。维基百科部分提供了丰富的知识性内容，新闻语料则反映了现实世界的多样性和时效性，百科问答和社区问答部分则提供了大量的互动性内容，有助于模型理解和生成自然语言。翻译语料部分则为中英文翻译研究提供了宝贵的资源。此外，数据集中的每个部分都经过了严格的筛选和整理，确保了数据的准确性和实用性。

使用方法

nlp_chinese_corpus数据集的使用方法多样，适用于多种自然语言处理任务。维基百科部分可用于构建知识问答系统或训练词向量模型；新闻语料可用于训练标题生成模型或关键词生成模型；百科问答和社区问答部分可用于训练问答系统或话题预测模型；翻译语料则可用于训练中英文翻译系统。用户可以根据研究需求选择相应的数据集部分，下载后直接用于模型训练或测试。数据集的结构清晰，每个部分都提供了详细的描述和示例，便于用户理解和使用。

背景与挑战

背景概述

nlp_chinese_corpus数据集由Liang Xu等人于2019年创建，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料资源。该数据集涵盖了维基百科、新闻、百科问答、社区问答以及中英文翻译等多种类型的语料，总规模达到数千万条。其核心研究问题在于解决中文语料稀缺、数据质量参差不齐的问题，为中文NLP模型的预训练、词向量构建、问答系统开发等任务提供支持。该数据集自发布以来，已成为中文NLP领域的重要资源，推动了中文语言模型、机器翻译、问答系统等技术的发展。

当前挑战

nlp_chinese_corpus数据集在构建过程中面临多重挑战。首先，中文语料的获取与整理存在技术难题，包括数据来源的多样性、格式的统一性以及数据质量的筛选。其次，大规模语料的去重、分类和标注需要耗费大量计算资源和人力成本。此外，数据集的多样性和覆盖范围要求对不同领域的语料进行整合，这对数据的平衡性和代表性提出了更高要求。在应用层面，如何利用这些语料训练出高效的中文NLP模型，尤其是在多任务学习、跨领域迁移等方面，仍是一个亟待解决的难题。

常用场景

经典使用场景

nlp_chinese_corpus数据集在中文自然语言处理领域中被广泛用于训练和评估各种模型。其包含的维基百科、新闻语料、百科问答、社区问答和翻译语料等多样化的数据，为研究者提供了丰富的语料资源。这些数据不仅适用于预训练语言模型，还可用于构建词向量、问答系统、文本生成等任务。特别是在大规模语言模型的训练中，该数据集的高质量和多样性显著提升了模型的泛化能力和表现。

解决学术问题

nlp_chinese_corpus数据集解决了中文自然语言处理领域中的语料稀缺问题。在2019年之前，研究者难以获取大规模、高质量的中文语料，这限制了中文NLP技术的发展。该数据集通过提供数百万至数亿级别的语料，填补了这一空白，使得研究者能够更高效地训练模型，推动了中文文本分类、机器翻译、问答系统等任务的研究进展。

衍生相关工作

nlp_chinese_corpus数据集催生了许多经典的研究工作。例如，基于该数据集的词向量模型在中文文本分类和语义相似度计算中表现出色；其翻译语料被用于训练中英文机器翻译模型，显著提升了翻译质量。此外，社区问答数据为研究话题预测和答案排序算法提供了实验基础，推动了社区问答系统的发展。这些工作不仅验证了数据集的价值，也为中文NLP领域的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集