nlp_chinese_corpus

github2020-11-16 更新2024-05-31 收录

下载链接：

https://github.com/ericperfect/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该项目提供了大规模的中文自然语言处理语料，包括维基百科、新闻语料、百科问答等多种类型的数据集，旨在为中文NLP领域提供丰富的资源，支持模型训练和研究。

This project offers a large-scale corpus for Chinese natural language processing (NLP), encompassing a variety of data types such as Wikipedia entries, news articles, and encyclopedic Q&A. It aims to provide abundant resources for the Chinese NLP domain, supporting model training and research endeavors.

创建时间：

2020-09-25

原始信息汇总

数据集概述

本数据集专注于中文自然语言处理领域，提供多种类型的中文语料，旨在支持中文NLP的研究与应用。以下是数据集的主要组成部分及其详细信息：

1. 维基百科(wiki2019zh)

规模: 1,043,224个词条
数据大小: 原始文件1.6G，压缩文件519M
更新时间: 2019年2月7日
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 预训练语料、构建词向量、知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
数据大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 预训练语料、词向量训练、标题生成、关键词生成

3. 百科问答(baike2018qa)

规模: 150万个问答
数据大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 预训练语料、词向量训练、百科类问答

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
数据大小: 过滤后数据3.7G，压缩文件1.7G
时间跨度: 2015-2016年
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 预训练语料、词向量训练、话题预测、社区问答系统

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
数据大小: 原始数据1.1G，压缩文件596M
结构: {"english": <english>, "chinese": <chinese>}
用途: 中英文翻译系统训练、预训练语料、词向量训练

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，可用于训练超大规模NLP模型。
添加520万翻译语料(translation2019zh)。

贡献语料

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。
贡献者将根据语料的质量和量级获得感谢，包括列出贡献者名单和赠送物品。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集的构建依托于多个来源的中文语料，包括维基百科、新闻、百科问答、社区问答以及翻译语料。这些语料经过严格的筛选和整理，确保了数据的多样性和高质量。例如，维基百科语料包含了104万个结构良好的中文词条，新闻语料则涵盖了250万篇新闻，每篇新闻均包含标题、关键词、描述和正文。此外，社区问答语料从1400万个原始问答中筛选出410万个高质量问答，确保了数据的实用性和代表性。

特点

nlp_chinese_corpus数据集的特点在于其广泛的覆盖范围和高质量的数据内容。数据集不仅包含了大量的通用中文语料，还特别针对自然语言处理任务进行了优化。例如，百科问答语料包含了150万个带问题类型的问答，适合用于构建问答系统或进行监督学习。翻译语料则提供了520万个中英文句子对，适用于中英文翻译任务。此外，数据集的划分清晰，训练集、验证集和测试集的分布合理，便于模型训练和评估。

使用方法

nlp_chinese_corpus数据集的使用方法多样，适用于多种自然语言处理任务。用户可以通过下载链接获取数据集，并根据具体任务选择相应的语料进行训练。例如，维基百科语料可用于预训练语言模型或构建词向量，新闻语料则适用于标题生成或关键词提取任务。百科问答语料可用于训练问答系统或进行句子相似性任务。翻译语料则可以直接用于中英文翻译模型的训练。数据集的使用文档详细，提供了每个语料的结构描述和示例，便于用户快速上手。

背景与挑战

背景概述

nlp_chinese_corpus数据集由Bright Xu于2019年创建，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料资源。该数据集涵盖了多种类型的中文文本，包括维基百科词条、新闻文章、百科问答、社区问答以及中英文翻译语料，总数据量达到数千万条。其核心研究问题在于如何通过大规模语料库提升中文NLP模型的性能，尤其是在预训练模型、词向量生成、问答系统等任务中的应用。该数据集对中文NLP领域的研究和实践产生了深远影响，推动了中文语言模型的快速发展，并为相关研究提供了丰富的实验数据。

当前挑战

nlp_chinese_corpus数据集在构建过程中面临多重挑战。首先，中文语料的获取与整理存在较大难度，尤其是在确保数据质量的同时实现大规模覆盖。其次，数据来源的多样性和复杂性要求对语料进行严格的清洗和标准化处理，以确保其适用于不同的NLP任务。此外，数据集的构建还需解决版权、隐私等法律和伦理问题。在应用层面，该数据集旨在解决中文NLP领域中的核心问题，如语言模型的预训练、问答系统的构建以及翻译模型的优化。然而，如何有效利用这些语料提升模型性能，尤其是在低资源任务中的表现，仍然是当前研究的重要挑战。

常用场景

经典使用场景

nlp_chinese_corpus数据集在中文自然语言处理领域中被广泛用于预训练语言模型和词向量构建。其丰富的语料来源，如维基百科、新闻、百科问答和社区问答，为研究者提供了多样化的文本数据，能够有效支持文本分类、情感分析、机器翻译等任务。特别是在中文语境下，该数据集为模型提供了高质量的训练数据，帮助提升模型在中文任务上的表现。

衍生相关工作

该数据集衍生了许多经典的研究工作，如基于ALBERT_Chinese的预训练模型，该模型在中文任务上表现出色，且参数量减少了30%。此外，许多研究利用该数据集进行中文词向量训练、文本生成和机器翻译任务，推动了中文NLP领域的技术进步。例如，OpenAI的GPT-2模型在该数据集上进行了中文文本生成的实验，展示了其在零样本任务中的潜力。

数据集最近研究