维基百科(wiki2019zh)

github2019-09-10 更新2024-05-31 收录

下载链接：

https://github.com/Charles3000/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。数据结构包括id、url、title和text，其中title是词条的标题，text是正文。

This dataset contains 1,040,000 well-structured Chinese lexical entries. It can serve as pre-training corpora, be used for constructing word embeddings, and also support the development of knowledge question-answering systems. Its data structure comprises four fields: id, url, title and text, where title represents the title of the entry, and text denotes its main content.

创建时间：

2019-09-10

原始信息汇总

中文自然语言处理语料库

数据集概述

本项目旨在为中文自然语言处理领域提供大规模的中文语料库，包括多个不同类型的语料，以支持预训练、词向量训练、问答系统等多种应用。

数据集列表

1. 维基百科(wiki2019zh)

描述: 包含100万个结构良好的中文词条。
用途: 可作为通用中文语料，用于预训练的语料或构建词向量，也可用于构建知识问答。
结构: json {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
示例: json {"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学

经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。

经济学注重的是研究经济行为者在一个经济体系下的行为，以及他们彼此之间的互动。在现代，经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为，包括个体的行为者（例如个人、公司、买家或卖家）以及与市场的互动。而宏观经济学则分析整个经济体和其议题，包括失业、通货膨胀、经济成长、财政和货币政策等。..."}

2. 新闻语料(news2016zh)

描述: 包含250万篇新闻，含关键词、描述。
用途: 可作为通用中文语料，用于预训练的语料或构建词向量，也可用于训练标题生成模型或关键词生成模型。
结构: json {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
示例: json {"news_id": "610130831", "keywords": "导游，门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售40元的门票，被“黑导游”加价出售，最高加到140元。故宫方面表示，请游客务必通过正规渠道购买门票，避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟，耐心排队购票也不会等待太长时间。....再反弹”的态势，打击黑导游需要游客配合，通过正规渠道购买门票。"}

3. 百科问答(baike2018qa)

描述: 包含150万个带问题类型的问答。
用途: 可作为通用中文语料，用于预训练的语料或构建词向量，也可用于构建百科类问答。
结构: json {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
示例: json {"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢，还是夏天进步好啊？ ", "desc": "", "answer": "你好！

当然是冬天进补好的了，夏天人体的胃处于收缩状态，不适宜大量的进补，所以我们有时候说：“夏天就要吃些清淡的，就是这个道理的。”

不过，秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药，有病治病，无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里，人们由于喝冷饮，常食冻品，多有脾胃功能减弱的现象，这时候如果突然大量进补，会骤然加重脾胃及肝脏的负担，使长期处于疲弱的消化器官难于承受，导致消化器官功能紊乱。

二忌以药代食。重药物轻食物的做法是不科学的，许多食物也是好的滋补品。如多吃荠菜可治疗高血压；多吃萝卜可健胃消食，顺气宽胸；多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。

三忌越贵越好。每个人的身体状况不同，因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症，应以实用有效为滋补原则，缺啥补啥。

四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后，由于脾胃尚未完全恢复到正常功能，因此过于油腻的食品不易消化吸收。另外，体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。"}

4. 社区问答json版(webtext2019zh)

描述: 包含410万个高质量社区问答，适合训练超大模型。
用途: 可用于构建百科类问答、训练话题预测模型、训练社区问答(cQA)系统等。
结构: json {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
示例: json {"qid": 65618973, "title": "AlphaGo只会下围棋吗？阿法狗能写小说吗？", "desc": "那么现在会不会有智能机器人能从事文学创作？<br>如果有，能写出什么水平的作品？", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。它在围棋领域的突破，证明了深度学习深度强化学习MCTS技术在围棋领域的有效性，并且取得了重大的PR效果。AlphaGo不会写小说，它是专用的，不会做跨出它领域的其它事情，比如语音识别，人脸识别，自动驾驶，写小说或者理解小说。如果要写小说，需要用到自然语言处理（NLP））中的自然语言生成技术，那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

5. 翻译语料(translation2019zh)

描述: 包含520万个中英文平行语料。
用途: 可用于训练中英文翻译系统，或作为通用中文语料训练词向量。
结构: json {"english": <english>, "chinese": <chinese>}
示例: json {"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利，公众不会真的向政府施压，要求实行新的、更公平的税收制度。"}

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

更新记录

Update: 增加高质量社区问答json版(webtext2019zh)，可用于训练超大规模NLP模型；添加520万翻译语料(translation2019zh)。

贡献语料

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于大规模的中文维基百科词条，通过筛选和清洗，形成了包含100万个结构良好的中文词条的数据集。每个词条包含标题和正文，并以JSON格式存储，便于处理和查询。

特点

该数据集的特点在于其规模庞大、内容丰富，覆盖了广泛的主题领域。数据以结构化的JSON格式存储，便于进行自动化处理和查询。此外，数据集经过质量筛选，保证了词条的正体中文质量和信息的准确性。

使用方法

使用该数据集时，用户可以直接下载并解压JSON文件，利用其中的词条进行自然语言处理任务，如预训练语言模型、构建词向量、进行知识问答等。用户需要根据数据集的结构进行相应的编程处理，以提取所需的信息并进行后续的分析和应用。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集，创建于2019年，是由Brightmart团队贡献的100万个结构良好的中文词条。该数据集旨在为中文自然语言处理领域提供高质量的语料资源，支撑词向量训练、预训练语料构建以及知识问答等任务。其影响力在中文NLP领域颇为显著，为相关研究提供了宝贵的数据支持。

当前挑战

该数据集在构建过程中主要面临的挑战包括：确保词条的结构良好且符合中文语言特点，以及处理大规模数据时的高效存储和访问问题。在研究领域问题方面，维基百科数据集面临的挑战是如何准确且有效地从非结构化数据中提取结构化知识，以及如何在保证数据质量的同时，实现数据的快速迭代和更新。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集作为中文自然语言处理领域的重要资源，其经典使用场景在于构建和预训练大规模语言模型。通过该数据集中的100万个结构良好的中文词条，研究者能够训练出能够理解和生成中文文本的模型，为下游任务如文本分类、机器翻译、问答系统等提供强有力的基础。

解决学术问题

该数据集解决了中文NLP研究中缺乏大规模、高质量中文语料的问题。它的出现为研究者提供了丰富的训练数据，有助于提高语言模型的理解能力，促进学术研究的深入，尤其在词向量训练、知识图谱构建、百科问答系统等领域具有重要影响。

衍生相关工作

基于维基百科(wiki2019zh)数据集，衍生出了一系列相关研究工作，包括但不限于中文词向量模型训练、知识图谱的构建与应用、多语言翻译系统的开发等，这些研究进一步推动了中文自然语言处理技术的发展和进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集