nlp_chinese_corpus

github2019-05-07 更新2024-05-31 收录

下载链接：

https://github.com/miracletiger/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

大规模中文自然语言处理语料，包含多个子数据集如维基百科、新闻语料、百科问答等，用于支持中文NLP研究和模型训练。

Large-scale Chinese natural language processing (NLP) corpus, which includes multiple sub-datasets such as Wikipedia, news corpora, encyclopedia question-answering datasets, etc., and is designed to support Chinese NLP research and model training.

创建时间：

2019-05-07

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，可用于训练超大规模NLP模型；添加520万翻译语料(translation2019zh)。

数据集列表

维基百科(wiki2019zh)
- 数量：100万个结构良好的中文词条
- 用途：通用中文语料，预训练语料，构建词向量，知识问答
- 结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
- 例子：`{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学

经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。..."}`

新闻语料(news2016zh)
- 数量：250万篇新闻
- 用途：通用中文语料，训练词向量，预训练语料，标题生成模型，关键词生成模型
- 结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
- 例子：{"news_id": "610130831", "keywords": "导游，门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。...", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。..."}
百科问答(baike2018qa)
- 数量：150万个带问题类型的问答
- 用途：通用中文语料，训练词向量，预训练语料，构建百科类问答
- 结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
- 例子：`{"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢，还是夏天进步好啊？ ", "desc": "", "answer": "你好！

当然是冬天进补好的了，夏天人体的胃处于收缩状态，不适宜大量的进补，所以我们有时候说：“夏天就要吃些清淡的，就是这个道理的。”..."}`

社区问答json版(webtext2019zh)
- 数量：410万个高质量社区问答
- 用途：构建百科类问答，训练话题预测模型，训练社区问答(cQA)系统，通用中文语料，预训练语料，训练词向量，预测回复受欢迎程度
- 结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
- 例子：{"qid": 65618973, "title": "AlphaGo只会下围棋吗？阿法狗能写小说吗？", "desc": "那么现在会不会有智能机器人能从事文学创作？<br>如果有，能写出什么水平的作品？", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。...", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}
翻译语料(translation2019zh)
- 数量：520万个中英文平行语料
- 用途：训练中英文翻译系统，通用中文语料，预训练语料，训练词向量
- 结构：{"english": <english>, "chinese": <chinese>}
- 例子：{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利，公众不会真的向政府施压，要求实行新的、更公平的税收制度。"}

数据集贡献

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com
贡献者将根据语料质量和量级获得奖励，包括键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

nlp_chinese_corpus数据集的构建，主要通过收集和整合多个来源的高质量中文文本资源，包括维基百科、新闻、百科问答、社区问答以及翻译语料等，旨在为中文自然语言处理领域提供大规模、多样化的训练和测试数据。数据集构建者通过精心筛选和预处理，确保了语料的清洁度和可用性，以满足不同NLP任务的需求。

使用方法

用户可以通过访问提供的下载链接获取数据集，并根据具体的研究需求进行使用。数据集以json格式存储，易于读取和处理。用户可以将其用于词向量训练、预训练模型构建、百科问答系统开发、翻译系统训练等多种NLP任务。此外，数据集的构建者还提供了公开评测任务，鼓励研究者基于数据集进行模型开发和性能比较。

背景与挑战

背景概述

nlp_chinese_corpus数据集是一项致力于推动中文自然语言处理领域发展的宏伟工程，由多个大规模中文语料库组成，始建于2019年。该数据集由brightmart团队负责维护，旨在解决中文自然语言处理领域在获取大量高质量语料方面的难题。数据集涵盖了维基百科、新闻、百科问答、社区问答和翻译语料等多个维度，为研究人员和开发者提供了宝贵的资源。

当前挑战

尽管nlp_chinese_corpus数据集为中文NLP研究提供了丰富的语料，但在构建和使用过程中仍面临诸多挑战。首先，语料的多样性和质量对于构建高效的自然语言处理模型至关重要，因此保证语料的纯净度和相关性是一个重要挑战。其次，随着数据量的增加，如何高效存储、处理和分析这些大规模数据集也是必须面对的技术挑战。此外，不同类型的语料在应用时可能需要不同的处理方法，这对于研究人员来说是一个额外的挑战。

常用场景

经典使用场景

nlp_chinese_corpus数据集在中文自然语言处理领域具有重要的应用价值。其经典使用场景包括但不限于构建预训练语言模型、进行词向量训练、支持问答系统构建、辅助机器翻译以及提供文本生成任务所需的语料支持。该数据集集合了多种类型的中文文本，为研究人员提供了丰富的语言资源，使得模型训练和算法研究得以在真实、多样化的语言环境中进行。

解决学术问题

该数据集解决了中文自然语言处理领域缺乏大规模、高质量语料的问题。它的构建不仅提供了充足的训练数据，有助于提升模型的泛化能力和准确度，而且通过多样化的话题和内容，使得模型能够更好地理解和处理中文语言的复杂性和多义性。此外，它还帮助研究者们在词向量训练、文本分类、情感分析、命名实体识别等学术问题上取得了重要进展。

实际应用

在实际应用中，nlp_chinese_corpus数据集被广泛应用于搜索引擎优化、智能客服系统、新闻推荐系统、社交媒体分析等领域。它为这些应用提供了强大的数据支持，使得相关系统在处理中文文本信息时能够更加智能和精准，从而提升用户体验和服务质量。

数据集最近研究