nlp_chinese_corpus
收藏github2020-10-27 更新2024-05-31 收录
下载链接:
https://github.com/GraysonChiang/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
大规模中文自然语言处理语料,包括维基百科、新闻语料、百科问答等多个数据集,用于支持中文自然语言处理的研究和应用。
A large-scale Chinese natural language processing corpus, encompassing datasets such as Wikipedia, news articles, and encyclopedic Q&A, designed to support research and applications in Chinese natural language processing.
创建时间:
2019-03-30
原始信息汇总
数据集概述
1. 维基百科(wiki2019zh)
- 规模: 104万个词条
- 数据大小: 原始文件1.6G,压缩文件519M
- 更新时间: 2019.2.7
- 结构:
{"id":<id>,"url":<url>,"title":<title>,"text":<text>} - 用途: 通用中文语料,预训练语料,构建词向量,知识问答
2. 新闻语料(news2016zh)
- 规模: 250万篇新闻
- 数据大小: 原始数据9G,压缩文件3.6G
- 时间跨度: 2014-2016年
- 结构:
{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>} - 用途: 通用中文语料,预训练语料,词向量训练,标题生成模型,关键词生成模型
3. 百科问答(baike2018qa)
- 规模: 150万个问答
- 数据大小: 原始数据1G多,压缩文件663M
- 更新时间: 2018年
- 结构:
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>} - 用途: 通用中文语料,预训练语料,词向量训练,百科类问答
4. 社区问答json版(webtext2019zh)
- 规模: 410万个问答
- 数据大小: 过滤后数据3.7G,压缩文件1.7G
- 时间跨度: 2015-2016年
- 结构:
{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>} - 用途: 通用中文语料,预训练语料,词向量训练,话题预测模型,社区问答系统
5. 翻译语料(translation2019zh)
- 规模: 520万个中英文句子对
- 数据大小: 原始数据1.1G,压缩文件596M
- 结构:
{"english": <english>, "chinese": <chinese>} - 用途: 中英文翻译系统,通用中文语料,预训练语料,词向量训练
搜集汇总
数据集介绍

构建方式
nlp_chinese_corpus数据集的构建依托于多源数据的整合与筛选,涵盖了维基百科、新闻、百科问答、社区问答及翻译语料等多个领域。数据来源包括公开的维基百科词条、新闻网站、百科问答平台以及社区问答网站等。通过严格的去重和过滤机制,确保了数据的高质量和多样性。数据集的构建过程还包括对原始数据的结构化处理,如将维基百科词条转换为JSON格式,新闻语料则包含标题、关键词、描述等字段,便于后续的自然语言处理任务。
特点
nlp_chinese_corpus数据集以其大规模和高多样性著称,涵盖了从通用语料到特定领域语料的广泛内容。数据集中的维基百科部分提供了100万个结构良好的中文词条,新闻语料则包含了250万篇新闻,涵盖了2014至2016年的新闻内容。此外,数据集还包含了150万个百科问答和410万个社区问答,这些问答数据不仅内容丰富,还带有类别和话题标签,便于进行监督学习和话题分类任务。翻译语料部分则提供了520万个中英文平行句子对,适用于机器翻译任务。
使用方法
nlp_chinese_corpus数据集适用于多种自然语言处理任务,包括但不限于词向量训练、预训练模型构建、问答系统开发、话题分类和机器翻译等。用户可以通过下载数据集中的JSON文件,直接加载数据进行处理。对于维基百科和新闻语料,用户可以利用其结构化信息进行词向量训练或预训练模型的微调。百科问答和社区问答数据则适用于构建问答系统或进行话题分类任务。翻译语料部分可用于训练中英文翻译模型,或作为通用语料进行词向量训练。数据集还提供了验证集和测试集,便于用户进行模型评估和性能测试。
背景与挑战
背景概述
nlp_chinese_corpus数据集由Liang Xu等人于2019年创建,旨在为中文自然语言处理(NLP)领域提供大规模、高质量的语料资源。该数据集涵盖了多种类型的中文文本,包括维基百科词条、新闻文章、百科问答、社区问答以及中英文翻译语料,总量达到数千万条。其核心研究问题在于解决中文语料稀缺的问题,尤其是在训练大规模预训练模型时,缺乏足够的高质量数据。该数据集的发布极大地推动了中文NLP领域的发展,为词向量训练、问答系统构建、翻译模型训练等任务提供了重要支持。
当前挑战
nlp_chinese_corpus数据集在构建过程中面临多重挑战。首先,中文语料的获取与整理难度较大,尤其是在确保数据的多样性和代表性方面。其次,数据清洗与去重工作复杂,尤其是在处理新闻、问答等非结构化文本时,需要去除重复、低质量或无关内容。此外,数据标注与分类的准确性也是一个重要挑战,尤其是在百科问答和社区问答数据中,如何确保问题与答案的匹配度以及话题分类的准确性。最后,数据集的规模与质量平衡问题也需谨慎处理,既要保证数据量足够大,又要确保每条数据的质量足够高,以满足大规模模型训练的需求。
常用场景
经典使用场景
nlp_chinese_corpus数据集在中文自然语言处理领域中被广泛应用于预训练语言模型和词向量的构建。其包含的维基百科、新闻语料、百科问答、社区问答和翻译语料等多类型数据,为研究者提供了丰富的语料资源,特别是在训练大规模语言模型时,这些数据能够显著提升模型的泛化能力和理解能力。
解决学术问题
该数据集解决了中文自然语言处理领域中的语料稀缺问题,尤其是在大规模语料获取和处理方面的挑战。通过提供高质量、多样化的中文语料,研究者能够更有效地训练和评估模型,推动中文分词、文本分类、机器翻译、问答系统等任务的发展。此外,数据集的结构化设计也为监督学习和半监督学习提供了便利。
衍生相关工作
基于nlp_chinese_corpus,许多经典的研究工作得以展开。例如,研究者利用该数据集训练了中文版的GPT-2模型,并在文本生成任务中取得了显著效果。此外,该数据集还被用于开发中文词向量模型,如Word2Vec和BERT的中文预训练版本。这些衍生工作不仅推动了中文自然语言处理技术的发展,也为后续研究提供了重要的参考和基础。
以上内容由遇见数据集搜集并总结生成



