nlp_chinese_corpus
收藏中文自然语言处理语料库
数据集概述
本项目旨在为中文自然语言处理领域提供大规模的中文语料库,包含多种类型的数据,适用于不同的NLP任务。
数据集列表
1. 维基百科(wiki2019zh)
- 描述: 包含100万个结构良好的中文词条。
- 用途: 可用作通用中文语料,训练词向量或作为预训练语料,也可用于构建知识问答。
- 结构: 每个词条包含id、url、title和text字段。
- 示例: json {"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学
经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。
经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。..."}
2. 新闻语料(news2016zh)
- 描述: 包含250万篇新闻,含标题、关键词、描述和正文。
- 用途: 可用作通用中文语料,训练词向量或作为预训练语料,也可用于训练标题生成模型或关键词生成模型。
- 结构: 每个新闻包含news_id、title、content、source、time、keywords和desc字段。
- 示例: json {"news_id": "610130831", "keywords": "导游,门票", "title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售40元的门票,被“黑导游”加价出售,最高加到140元。故宫方面表示,请游客务必通过正规渠道购买门票,避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟,耐心排队购票也不会等待太长时间。....再反弹”的态势,打击黑导游需要游客配合,通过正规渠道购买门票。"}
3. 百科问答(baike2018qa)
- 描述: 包含150万个带问题类型的问答。
- 用途: 可用作通用中文语料,训练词向量或作为预训练语料,也可用于构建百科类问答。
- 结构: 每个问答包含qid、category、title、desc和answer字段。
- 示例: json {"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢,还是夏天进步好啊?", "desc": "", "answer": "你好!
当然是冬天进补好的了,夏天人体的胃处于收缩状态,不适宜大量的进补,所以我们有时候说:“夏天就要吃些清淡的,就是这个道理的。”
不过,秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药,有病治病,无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里,人们由于喝冷饮,常食冻品,多有脾胃功能减弱的现象,这时候如果突然大量进补,会骤然加重脾胃及肝脏的负担,使长期处于疲弱的消化器官难于承受,导致消化器官功能紊乱。
二忌以药代食。重药物轻食物的做法是不科学的,许多食物也是好的滋补品。如多吃荠菜可治疗高血压;多吃萝卜可健胃消食,顺气宽胸;多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。
三忌越贵越好。每个人的身体状况不同,因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症,应以实用有效为滋补原则,缺啥补啥。
四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后,由于脾胃尚未完全恢复到正常功能,因此过于油腻的食品不易消化吸收。另外,体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。"}
4. 社区问答json版(webtext2019zh)
- 描述: 包含410万个高质量社区问答,适合训练超大模型。
- 用途: 可用于构建百科类问答、训练话题预测模型、训练社区问答(cQA)系统等。
- 结构: 每个问答包含qid、title、desc、topic、star、content、answer_id和answerer_tags字段。
- 示例: json {"qid": 65618973, "title": "AlphaGo只会下围棋吗?阿法狗能写小说吗?", "desc": "那么现在会不会有智能机器人能从事文学创作?<br>如果有,能写出什么水平的作品?", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋,因为它的设计目的,架构,技术方案以及训练数据,都是围绕下围棋这个核心进行的。它在围棋领域的突破,证明了深度学习深度强化学习MCTS技术在围棋领域的有效性,并且取得了重大的PR效果。AlphaGo不会写小说,它是专用的,不会做跨出它领域的其它事情,比如语音识别,人脸识别,自动驾驶,写小说或者理解小说。如果要写小说,需要用到自然语言处理(NLP))中的自然语言生成技术,那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}
5. 翻译语料(translation2019zh)
- 描述: 包含520万个中英文句子对。
- 用途: 可用于训练中英文翻译系统,也可用作通用中文语料,训练词向量或作为预训练语料。
- 结构: 每个句子对包含english和chinese字段。
- 示例: json {"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利,公众不会真的向政府施压,要求实行新的、更公平的税收制度。"}
数据集目标
- 一期目标: 10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
- 二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
贡献语料
贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com。语料库将会不断扩充。




