nlp_chinese_corpus

github2021-06-02 更新2024-05-31 收录

下载链接：

https://github.com/ChenZhongFu/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

大规模中文自然语言处理语料，包含多个子数据集，如维基百科、新闻语料、百科问答等，用于训练和研究中文自然语言处理模型。

Large-scale Chinese natural language processing corpus, which encompasses multiple sub-datasets including Wikipedia, news corpora, encyclopedia question-answering datasets and more, is designed for training and researching Chinese natural language processing models.

创建时间：

2019-04-10

原始信息汇总

中文自然语言处理语料库

数据集概述

本项目旨在为中文自然语言处理领域提供大规模的中文语料库，包含多种类型的数据，适用于不同的NLP任务。

数据集列表

1. 维基百科(wiki2019zh)

描述: 包含100万个结构良好的中文词条。
用途: 可用作通用中文语料，训练词向量或作为预训练语料，也可用于构建知识问答。
结构: 每个词条包含id、url、title和text字段。
示例: json {"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学

经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。

经济学注重的是研究经济行为者在一个经济体系下的行为，以及他们彼此之间的互动。在现代，经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为，包括个体的行为者（例如个人、公司、买家或卖家）以及与市场的互动。而宏观经济学则分析整个经济体和其议题，包括失业、通货膨胀、经济成长、财政和货币政策等。..."}

2. 新闻语料(news2016zh)

描述: 包含250万篇新闻，含标题、关键词、描述和正文。
用途: 可用作通用中文语料，训练词向量或作为预训练语料，也可用于训练标题生成模型或关键词生成模型。
结构: 每个新闻包含news_id、title、content、source、time、keywords和desc字段。
示例: json {"news_id": "610130831", "keywords": "导游，门票", "title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售40元的门票，被“黑导游”加价出售，最高加到140元。故宫方面表示，请游客务必通过正规渠道购买门票，避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟，耐心排队购票也不会等待太长时间。....再反弹”的态势，打击黑导游需要游客配合，通过正规渠道购买门票。"}

3. 百科问答(baike2018qa)

描述: 包含150万个带问题类型的问答。
用途: 可用作通用中文语料，训练词向量或作为预训练语料，也可用于构建百科类问答。
结构: 每个问答包含qid、category、title、desc和answer字段。
示例: json {"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢，还是夏天进步好啊？", "desc": "", "answer": "你好！

当然是冬天进补好的了，夏天人体的胃处于收缩状态，不适宜大量的进补，所以我们有时候说：“夏天就要吃些清淡的，就是这个道理的。”

不过，秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药，有病治病，无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里，人们由于喝冷饮，常食冻品，多有脾胃功能减弱的现象，这时候如果突然大量进补，会骤然加重脾胃及肝脏的负担，使长期处于疲弱的消化器官难于承受，导致消化器官功能紊乱。

二忌以药代食。重药物轻食物的做法是不科学的，许多食物也是好的滋补品。如多吃荠菜可治疗高血压；多吃萝卜可健胃消食，顺气宽胸；多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。

三忌越贵越好。每个人的身体状况不同，因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症，应以实用有效为滋补原则，缺啥补啥。

四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后，由于脾胃尚未完全恢复到正常功能，因此过于油腻的食品不易消化吸收。另外，体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。"}

4. 社区问答json版(webtext2019zh)

描述: 包含410万个高质量社区问答，适合训练超大模型。
用途: 可用于构建百科类问答、训练话题预测模型、训练社区问答(cQA)系统等。
结构: 每个问答包含qid、title、desc、topic、star、content、answer_id和answerer_tags字段。
示例: json {"qid": 65618973, "title": "AlphaGo只会下围棋吗？阿法狗能写小说吗？", "desc": "那么现在会不会有智能机器人能从事文学创作？<br>如果有，能写出什么水平的作品？", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。它在围棋领域的突破，证明了深度学习深度强化学习MCTS技术在围棋领域的有效性，并且取得了重大的PR效果。AlphaGo不会写小说，它是专用的，不会做跨出它领域的其它事情，比如语音识别，人脸识别，自动驾驶，写小说或者理解小说。如果要写小说，需要用到自然语言处理（NLP））中的自然语言生成技术，那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

5. 翻译语料(translation2019zh)

描述: 包含520万个中英文句子对。
用途: 可用于训练中英文翻译系统，也可用作通用中文语料，训练词向量或作为预训练语料。
结构: 每个句子对包含english和chinese字段。
示例: json {"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利，公众不会真的向政府施压，要求实行新的、更公平的税收制度。"}

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

贡献语料

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。语料库将会不断扩充。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集的构建基于多源中文语料的整合与筛选，涵盖了维基百科、新闻、百科问答、社区问答及翻译语料等多种类型。数据来源包括公开的维基百科词条、新闻网站、百科问答平台以及社区问答论坛。通过严格的过滤和去重处理，确保了语料的高质量和多样性。数据集的构建过程还涉及对语料的结构化处理，如将维基百科词条转换为JSON格式，新闻语料则保留了标题、关键词、描述等元信息。

特点

该数据集的特点在于其规模庞大且类型丰富，涵盖了从通用语料到特定领域的多种数据类型。维基百科部分包含104万个结构良好的中文词条，新闻语料则提供了250万篇新闻，涵盖了2014至2016年的新闻内容。百科问答部分包含150万个带问题类型的问答，社区问答部分则提供了410万个高质量问答对，适合训练大规模NLP模型。此外，翻译语料部分包含520万个中英文句子对，为中英文翻译任务提供了丰富的资源。

使用方法

nlp_chinese_corpus数据集可用于多种自然语言处理任务。维基百科和新闻语料可用于训练词向量或作为预训练语料，百科问答和社区问答部分则适用于构建问答系统或进行话题预测任务。翻译语料部分可直接用于中英文翻译模型的训练。数据集提供了明确的JSON格式，便于用户直接加载和处理。用户可通过提供的下载链接获取数据，并根据任务需求选择相应的子集进行训练或测试。

背景与挑战

背景概述

nlp_chinese_corpus数据集由brightmart团队于2019年创建，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料资源。该数据集涵盖了维基百科、新闻、百科问答、社区问答及翻译语料等多种类型，总量超过千万级，旨在解决中文语料稀缺的问题。其核心研究问题在于如何通过大规模语料库提升中文NLP模型的性能，尤其是在预训练、词向量构建、问答系统等任务中的应用。该数据集对推动中文NLP技术的发展具有重要意义，尤其是在大规模语言模型训练和中文信息处理领域。

当前挑战

nlp_chinese_corpus数据集在构建过程中面临多重挑战。首先，中文语料的获取与整理难度较大，尤其是高质量、结构化的数据稀缺。其次，数据清洗与去重工作繁重，需确保语料的准确性与一致性。此外，如何平衡语料的多样性与规模，以及如何有效利用多源数据（如维基百科、新闻、问答等）进行模型训练，也是该数据集面临的核心挑战。在应用层面，如何利用该数据集提升中文NLP模型的泛化能力，尤其是在低资源任务中的表现，仍需进一步探索。

常用场景

经典使用场景

nlp_chinese_corpus数据集在中文自然语言处理领域中被广泛用于训练和评估各种模型。其包含的维基百科、新闻语料、百科问答、社区问答和翻译语料等多样化的数据源，为研究者提供了丰富的语言素材。这些数据不仅适用于预训练语言模型，还可用于构建词向量、问答系统、文本生成和翻译模型等任务。通过使用这些数据，研究者能够更好地理解和处理中文语言的复杂性。

衍生相关工作

nlp_chinese_corpus数据集催生了许多经典的研究工作。例如，基于该数据集的词向量模型在中文文本分类和情感分析任务中表现出色。此外，研究者利用该数据集训练了多个问答系统和翻译模型，这些模型在公开评测中取得了优异的成绩。还有一些工作专注于利用该数据集进行文本生成和语言模型训练，推动了中文自然语言生成技术的发展。这些衍生工作不仅丰富了中文自然语言处理的研究成果，还为后续研究提供了宝贵的参考。

数据集最近研究