nlp_chinese_corpus
收藏github2020-07-01 更新2024-05-31 收录
下载链接:
https://github.com/WEI-WEI-CODE/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
大规模中文自然语言处理语料,包含多个子数据集,如维基百科、新闻语料、百科问答等,用于支持中文NLP研究和模型训练。
A large-scale Chinese natural language processing corpus, encompassing multiple sub-datasets such as Wikipedia, news corpora, and encyclopedic Q&A, designed to support Chinese NLP research and model training.
创建时间:
2020-07-01
原始信息汇总
数据集概述
1. 维基百科(wiki2019zh)
- 规模: 104万个词条,原始文件大小1.6G,压缩文件519M。
- 更新时间: 2019年2月7日。
- 结构: 每个词条包含id, url, title, text。
- 用途: 通用中文语料,预训练语料,构建词向量,知识问答。
2. 新闻语料(news2016zh)
- 规模: 250万篇新闻,原始数据9G,压缩文件3.6G。
- 时间跨度: 2014-2016年。
- 结构: 包含news_id, title, content, source, time, keywords, desc。
- 用途: 通用中文语料,预训练语料,词向量训练,标题生成,关键词生成。
3. 百科问答(baike2018qa)
- 规模: 150万个问答,原始数据1G多,压缩文件663M。
- 更新时间: 2018年。
- 结构: 包含qid, category, title, desc, answer。
- 用途: 通用中文语料,预训练语料,百科类问答,句子表示模型训练。
4. 社区问答json版(webtext2019zh)
- 规模: 410万个问答,过滤后数据3.7G,压缩文件1.7G。
- 时间跨度: 2015-2016年。
- 结构: 包含qid, title, desc, topic, star, content, answer_id, answerer_tags。
- 用途: 构建百科类问答,话题预测,社区问答系统,预训练语料,词向量训练。
5. 翻译语料(translation2019zh)
- 规模: 520万个中英文平行语料,原始数据1.1G,压缩文件596M。
- 结构: 包含english, chinese。
- 用途: 中英文翻译系统训练,通用中文语料,预训练语料,词向量训练。
数据集目标
- 一期目标: 10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)。
- 二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)。
数据集更新
- 增加高质量社区问答json版(webtext2019zh),可用于训练超大规模NLP模型。
- 添加520万翻译语料(translation2019zh)。
贡献语料
- 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com。
搜集汇总
数据集介绍

构建方式
nlp_chinese_corpus数据集通过整合多种来源的中文语料构建而成,包括维基百科、新闻、百科问答、社区问答和翻译语料等。这些语料经过精心筛选和处理,确保了数据的高质量和多样性。例如,维基百科语料包含了100万个结构良好的中文词条,新闻语料涵盖了250万篇新闻,百科问答语料则包含了150万个高质量问答。此外,社区问答和翻译语料的加入进一步丰富了数据集的多样性和实用性。
特点
该数据集的显著特点在于其规模庞大且多样性丰富,涵盖了从维基百科到社区问答等多种类型的中文语料。每个子数据集都经过精心处理,确保了数据的高质量和结构化,适合用于多种自然语言处理任务。此外,数据集的更新频率较高,确保了语料的时效性和实用性。数据集的结构化设计使得用户可以方便地提取和使用所需信息,适用于从预训练模型到特定任务的多种应用场景。
使用方法
nlp_chinese_corpus数据集适用于多种自然语言处理任务,包括但不限于预训练语言模型、词向量训练、文本分类、问答系统构建和机器翻译等。用户可以根据具体任务需求选择合适的子数据集进行训练或测试。例如,维基百科语料适合用于构建知识图谱或进行文本生成任务,而新闻语料则适合用于新闻分类或标题生成模型。数据集的下载和使用均通过GitHub页面提供的链接进行,用户可以根据需要选择不同的下载方式和数据格式。
背景与挑战
背景概述
nlp_chinese_corpus数据集由Bright Xu等人于2019年创建,旨在为中文自然语言处理领域提供大规模、高质量的语料资源。该数据集的核心研究问题是如何在中文语料稀缺的情况下,构建一个丰富且多样化的语料库,以支持预训练模型、词向量训练及各类NLP任务。数据集的创建不仅填补了中文语料库的空白,还为研究人员和开发者提供了便捷的资源,推动了中文NLP技术的发展。通过提供维基百科、新闻、问答、社区讨论及翻译等多种类型的语料,该数据集在中文语言理解与生成任务中展现了巨大的应用潜力。
当前挑战
nlp_chinese_corpus数据集在构建过程中面临多重挑战。首先,中文语料的获取与清洗是一个复杂的过程,尤其是在处理大规模数据时,如何确保数据的准确性和一致性尤为关键。其次,不同类型的语料(如新闻、问答、翻译等)在结构和内容上存在显著差异,如何统一处理这些数据以适应多种NLP任务是一个技术难点。此外,数据集的扩展性和可持续性也是一个挑战,如何在保证质量的前提下不断扩充语料库,以满足日益增长的研究需求,是该数据集未来需要解决的问题。最后,如何确保数据集的开放性和共享性,同时保护用户隐私和数据安全,也是该数据集面临的重要挑战。
常用场景
经典使用场景
nlp_chinese_corpus数据集的经典使用场景主要集中在自然语言处理(NLP)领域,尤其是中文语料的预训练和词向量训练。该数据集包含了多种类型的中文语料,如维基百科、新闻、百科问答、社区问答和翻译语料,这些语料可以用于构建通用中文语料库,训练词向量模型,或作为预训练模型的基础数据。此外,该数据集还可用于构建知识问答系统、标题生成模型、关键词生成模型等,广泛应用于文本分类、情感分析、机器翻译等任务。
衍生相关工作
nlp_chinese_corpus数据集的发布催生了许多相关的中文NLP研究工作。例如,基于该数据集的预训练模型如ALBERT_Chinese,通过使用30G+的中文语料进行训练,达到了当时中文NLP领域的先进水平。此外,该数据集还支持了多个中文NLP基准测评任务,如CLUE benchmark,推动了中文语言理解模型的标准化评估。在社区问答和百科问答领域,研究者利用该数据集开发了多种问答系统和话题预测模型,进一步提升了中文问答系统的智能化水平。这些衍生工作不仅丰富了中文NLP的研究内容,还为实际应用提供了技术支持。
数据集最近研究
最新研究方向
近年来,随着中文自然语言处理(NLP)领域的快速发展,nlp_chinese_corpus数据集在多个前沿研究方向上展现出重要价值。首先,该数据集在中文预训练模型(如ALBERT_Chinese)的训练中发挥了关键作用,通过大规模语料的训练,模型在多项任务上达到了国际领先水平。其次,数据集中的社区问答和翻译语料为构建高质量的问答系统和机器翻译模型提供了丰富的资源,尤其是在多任务学习和跨语言理解方面,推动了相关技术的进步。此外,该数据集还支持了中文语言模型的微调和优化,促进了零样本学习和少样本学习等新兴研究方向的发展。总体而言,nlp_chinese_corpus数据集在中文NLP领域的广泛应用,不仅提升了模型的性能,也为学术研究和产业应用提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成



