nlp_chinese_corpus
收藏github2019-05-07 更新2024-05-31 收录
下载链接:
https://github.com/miracletiger/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
大规模中文自然语言处理语料,包含多个子数据集如维基百科、新闻语料、百科问答等,用于支持中文NLP研究和模型训练。
Large-scale Chinese natural language processing (NLP) corpus, which includes multiple sub-datasets such as Wikipedia, news corpora, encyclopedia question-answering datasets, etc., and is designed to support Chinese NLP research and model training.
创建时间:
2019-05-07
原始信息汇总
数据集概述
数据集目标
- 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
- 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
数据集更新
- 增加高质量社区问答json版(webtext2019zh),可用于训练超大规模NLP模型;添加520万翻译语料(translation2019zh)。
数据集列表
- 维基百科(wiki2019zh)
- 数量:100万个结构良好的中文词条
- 用途:通用中文语料,预训练语料,构建词向量,知识问答
- 结构:
{"id":<id>,"url":<url>,"title":<title>,"text":<text>} - 例子:`{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学
经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。..."}`
-
新闻语料(news2016zh)
- 数量:250万篇新闻
- 用途:通用中文语料,训练词向量,预训练语料,标题生成模型,关键词生成模型
- 结构:
{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>} - 例子:
{"news_id": "610130831", "keywords": "导游,门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。...", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。..."}
-
百科问答(baike2018qa)
- 数量:150万个带问题类型的问答
- 用途:通用中文语料,训练词向量,预训练语料,构建百科类问答
- 结构:
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>} - 例子:`{"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢,还是夏天进步好啊? ", "desc": "", "answer": "你好!
当然是冬天进补好的了,夏天人体的胃处于收缩状态,不适宜大量的进补,所以我们有时候说:“夏天就要吃些清淡的,就是这个道理的。”..."}`
-
社区问答json版(webtext2019zh)
- 数量:410万个高质量社区问答
- 用途:构建百科类问答,训练话题预测模型,训练社区问答(cQA)系统,通用中文语料,预训练语料,训练词向量,预测回复受欢迎程度
- 结构:
{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>} - 例子:
{"qid": 65618973, "title": "AlphaGo只会下围棋吗?阿法狗能写小说吗?", "desc": "那么现在会不会有智能机器人能从事文学创作?<br>如果有,能写出什么水平的作品?", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋,因为它的设计目的,架构,技术方案以及训练数据,都是围绕下围棋这个核心进行的。...", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}
-
翻译语料(translation2019zh)
- 数量:520万个中英文平行语料
- 用途:训练中英文翻译系统,通用中文语料,预训练语料,训练词向量
- 结构:
{"english": <english>, "chinese": <chinese>} - 例子:
{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利,公众不会真的向政府施压,要求实行新的、更公平的税收制度。"}
数据集贡献
- 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com
- 贡献者将根据语料质量和量级获得奖励,包括键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。
搜集汇总
数据集介绍

构建方式
nlp_chinese_corpus数据集的构建,主要通过收集和整合多个来源的高质量中文文本资源,包括维基百科、新闻、百科问答、社区问答以及翻译语料等,旨在为中文自然语言处理领域提供大规模、多样化的训练和测试数据。数据集构建者通过精心筛选和预处理,确保了语料的清洁度和可用性,以满足不同NLP任务的需求。
使用方法
用户可以通过访问提供的下载链接获取数据集,并根据具体的研究需求进行使用。数据集以json格式存储,易于读取和处理。用户可以将其用于词向量训练、预训练模型构建、百科问答系统开发、翻译系统训练等多种NLP任务。此外,数据集的构建者还提供了公开评测任务,鼓励研究者基于数据集进行模型开发和性能比较。
背景与挑战
背景概述
nlp_chinese_corpus数据集是一项致力于推动中文自然语言处理领域发展的宏伟工程,由多个大规模中文语料库组成,始建于2019年。该数据集由brightmart团队负责维护,旨在解决中文自然语言处理领域在获取大量高质量语料方面的难题。数据集涵盖了维基百科、新闻、百科问答、社区问答和翻译语料等多个维度,为研究人员和开发者提供了宝贵的资源。
当前挑战
尽管nlp_chinese_corpus数据集为中文NLP研究提供了丰富的语料,但在构建和使用过程中仍面临诸多挑战。首先,语料的多样性和质量对于构建高效的自然语言处理模型至关重要,因此保证语料的纯净度和相关性是一个重要挑战。其次,随着数据量的增加,如何高效存储、处理和分析这些大规模数据集也是必须面对的技术挑战。此外,不同类型的语料在应用时可能需要不同的处理方法,这对于研究人员来说是一个额外的挑战。
常用场景
经典使用场景
nlp_chinese_corpus数据集在中文自然语言处理领域具有重要的应用价值。其经典使用场景包括但不限于构建预训练语言模型、进行词向量训练、支持问答系统构建、辅助机器翻译以及提供文本生成任务所需的语料支持。该数据集集合了多种类型的中文文本,为研究人员提供了丰富的语言资源,使得模型训练和算法研究得以在真实、多样化的语言环境中进行。
解决学术问题
该数据集解决了中文自然语言处理领域缺乏大规模、高质量语料的问题。它的构建不仅提供了充足的训练数据,有助于提升模型的泛化能力和准确度,而且通过多样化的话题和内容,使得模型能够更好地理解和处理中文语言的复杂性和多义性。此外,它还帮助研究者们在词向量训练、文本分类、情感分析、命名实体识别等学术问题上取得了重要进展。
实际应用
在实际应用中,nlp_chinese_corpus数据集被广泛应用于搜索引擎优化、智能客服系统、新闻推荐系统、社交媒体分析等领域。它为这些应用提供了强大的数据支持,使得相关系统在处理中文文本信息时能够更加智能和精准,从而提升用户体验和服务质量。
数据集最近研究
最新研究方向
该数据集在本领域的最新研究方向包括但不限于:利用大规模中文语料库进行词向量训练,以改善自然语言处理模型的基础性能;构建基于深度学习的社区问答系统,以实现更精准的问答匹配;开展话题预测研究,以提升对用户提问内容的话题识别准确性;以及利用中英文平行语料库进行机器翻译模型的训练和优化。这些研究方向对于提升中文自然语言处理技术的应用范围和效果具有重要意义。
以上内容由遇见数据集搜集并总结生成



