nlp_chinese_corpus

github2020-07-01 更新2024-05-31 收录

下载链接：

https://github.com/WEI-WEI-CODE/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

大规模中文自然语言处理语料，包含多个子数据集，如维基百科、新闻语料、百科问答等，用于支持中文NLP研究和模型训练。

A large-scale Chinese natural language processing corpus, encompassing multiple sub-datasets such as Wikipedia, news corpora, and encyclopedic Q&A, designed to support Chinese NLP research and model training.

创建时间：

2020-07-01

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条，原始文件大小1.6G，压缩文件519M。
更新时间: 2019年2月7日。
结构: 每个词条包含id, url, title, text。
用途: 通用中文语料，预训练语料，构建词向量，知识问答。

2. 新闻语料(news2016zh)

规模: 250万篇新闻，原始数据9G，压缩文件3.6G。
时间跨度: 2014-2016年。
结构: 包含news_id, title, content, source, time, keywords, desc。
用途: 通用中文语料，预训练语料，词向量训练，标题生成，关键词生成。

3. 百科问答(baike2018qa)

规模: 150万个问答，原始数据1G多，压缩文件663M。
更新时间: 2018年。
结构: 包含qid, category, title, desc, answer。
用途: 通用中文语料，预训练语料，百科类问答，句子表示模型训练。

4. 社区问答json版(webtext2019zh)

规模: 410万个问答，过滤后数据3.7G，压缩文件1.7G。
时间跨度: 2015-2016年。
结构: 包含qid, title, desc, topic, star, content, answer_id, answerer_tags。
用途: 构建百科类问答，话题预测，社区问答系统，预训练语料，词向量训练。

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料，原始数据1.1G，压缩文件596M。
结构: 包含english, chinese。
用途: 中英文翻译系统训练，通用中文语料，预训练语料，词向量训练。

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）。
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）。

数据集更新

增加高质量社区问答json版(webtext2019zh)，可用于训练超大规模NLP模型。
添加520万翻译语料(translation2019zh)。

贡献语料

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集通过整合多种来源的中文语料构建而成，包括维基百科、新闻、百科问答、社区问答和翻译语料等。这些语料经过精心筛选和处理，确保了数据的高质量和多样性。例如，维基百科语料包含了100万个结构良好的中文词条，新闻语料涵盖了250万篇新闻，百科问答语料则包含了150万个高质量问答。此外，社区问答和翻译语料的加入进一步丰富了数据集的多样性和实用性。

特点

该数据集的显著特点在于其规模庞大且多样性丰富，涵盖了从维基百科到社区问答等多种类型的中文语料。每个子数据集都经过精心处理，确保了数据的高质量和结构化，适合用于多种自然语言处理任务。此外，数据集的更新频率较高，确保了语料的时效性和实用性。数据集的结构化设计使得用户可以方便地提取和使用所需信息，适用于从预训练模型到特定任务的多种应用场景。

使用方法

nlp_chinese_corpus数据集适用于多种自然语言处理任务，包括但不限于预训练语言模型、词向量训练、文本分类、问答系统构建和机器翻译等。用户可以根据具体任务需求选择合适的子数据集进行训练或测试。例如，维基百科语料适合用于构建知识图谱或进行文本生成任务，而新闻语料则适合用于新闻分类或标题生成模型。数据集的下载和使用均通过GitHub页面提供的链接进行，用户可以根据需要选择不同的下载方式和数据格式。

背景与挑战

背景概述

nlp_chinese_corpus数据集由Bright Xu等人于2019年创建，旨在为中文自然语言处理领域提供大规模、高质量的语料资源。该数据集的核心研究问题是如何在中文语料稀缺的情况下，构建一个丰富且多样化的语料库，以支持预训练模型、词向量训练及各类NLP任务。数据集的创建不仅填补了中文语料库的空白，还为研究人员和开发者提供了便捷的资源，推动了中文NLP技术的发展。通过提供维基百科、新闻、问答、社区讨论及翻译等多种类型的语料，该数据集在中文语言理解与生成任务中展现了巨大的应用潜力。

当前挑战

nlp_chinese_corpus数据集在构建过程中面临多重挑战。首先，中文语料的获取与清洗是一个复杂的过程，尤其是在处理大规模数据时，如何确保数据的准确性和一致性尤为关键。其次，不同类型的语料（如新闻、问答、翻译等）在结构和内容上存在显著差异，如何统一处理这些数据以适应多种NLP任务是一个技术难点。此外，数据集的扩展性和可持续性也是一个挑战，如何在保证质量的前提下不断扩充语料库，以满足日益增长的研究需求，是该数据集未来需要解决的问题。最后，如何确保数据集的开放性和共享性，同时保护用户隐私和数据安全，也是该数据集面临的重要挑战。

常用场景

经典使用场景

nlp_chinese_corpus数据集的经典使用场景主要集中在自然语言处理（NLP）领域，尤其是中文语料的预训练和词向量训练。该数据集包含了多种类型的中文语料，如维基百科、新闻、百科问答、社区问答和翻译语料，这些语料可以用于构建通用中文语料库，训练词向量模型，或作为预训练模型的基础数据。此外，该数据集还可用于构建知识问答系统、标题生成模型、关键词生成模型等，广泛应用于文本分类、情感分析、机器翻译等任务。

衍生相关工作

nlp_chinese_corpus数据集的发布催生了许多相关的中文NLP研究工作。例如，基于该数据集的预训练模型如ALBERT_Chinese，通过使用30G+的中文语料进行训练，达到了当时中文NLP领域的先进水平。此外，该数据集还支持了多个中文NLP基准测评任务，如CLUE benchmark，推动了中文语言理解模型的标准化评估。在社区问答和百科问答领域，研究者利用该数据集开发了多种问答系统和话题预测模型，进一步提升了中文问答系统的智能化水平。这些衍生工作不仅丰富了中文NLP的研究内容，还为实际应用提供了技术支持。

数据集最近研究