维基百科(wiki2019zh)
收藏github2020-02-19 更新2024-05-31 收录
下载链接:
https://github.com/zhangqianjin/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练的语料或构建词向量,也可用于构建知识问答。数据结构包括id、url、title和text,其中title是词条的标题,text是正文。
This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The data structure includes id, url, title, and text, where the title represents the heading of the entry and the text contains the main body.
创建时间:
2020-02-10
原始信息汇总
数据集概述
1. 维基百科(wiki2019zh)
- 规模: 104万个词条
- 数据大小: 原始文件1.6G,压缩文件519M
- 更新时间: 2019年2月7日
- 结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
- 用途: 通用中文语料,预训练语料,构建词向量,知识问答
2. 新闻语料(news2016zh)
- 规模: 250万篇新闻
- 数据大小: 原始数据9G,压缩文件3.6G
- 时间跨度: 2014-2016年
- 结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
- 用途: 通用中文语料,训练词向量,预训练语料,标题生成,关键词生成
3. 百科问答(baike2018qa)
- 规模: 150万个问答
- 数据大小: 原始数据1G多,压缩文件663M
- 更新时间: 2018年
- 结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
- 用途: 通用中文语料,预训练语料,构建百科问答
4. 社区问答json版(webtext2019zh)
- 规模: 410万个问答
- 数据大小: 过滤后数据3.7G,压缩文件1.7G
- 时间跨度: 2015-2016年
- 结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
- 用途: 构建百科问答,话题预测,社区问答系统,预训练语料,词向量训练
5. 翻译语料(translation2019zh)
- 规模: 520万个中英文平行语料
- 数据大小: 原始数据1.1G,压缩文件596M
- 结构: {"english": <english>, "chinese": <chinese>}
- 用途: 中英文翻译系统,预训练语料,词向量训练
数据集目标
- 一期目标: 10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
- 二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
数据集更新
- 增加高质量社区问答json版(webtext2019zh),可用于训练超大规模NLP模型
- 添加520万翻译语料(translation2019zh)
搜集汇总
数据集介绍

构建方式
维基百科(wiki2019zh)数据集的构建基于大规模的中文维基百科词条,通过爬取和清洗得到100万个结构良好的中文词条。每个词条包含唯一的ID、标题、正文和URL链接,正文以'
'作为段落分隔。该数据集的构建旨在为中文自然语言处理领域提供高质量的语料资源。
特点
该数据集的特点在于其规模庞大、内容丰富且结构化程度高。词条覆盖了广泛的主题,包括但不限于科学、历史、文化、技术等,为研究者和开发者提供了丰富的信息资源。此外,数据集以JSON格式存储,便于处理和使用。
使用方法
使用维基百科(wiki2019zh)数据集时,用户可以直接下载并解压数据文件,然后利用其中的JSON格式数据进行分析或训练模型。数据集适用于构建词向量、预训练语言模型、进行知识问答和文本生成等任务。用户需确保在合法和合规的范围内使用数据集,尊重数据版权和隐私政策。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集是一款于2019年发布的中文自然语言处理语料库。该数据集由 Bright Xu 等人创建,包含了100万个结构良好的中文词条,旨在为中文自然语言处理领域提供高质量的训练数据。数据集的构建旨在促进中文信息处理技术的发展,特别是在机器翻译、文本挖掘、词向量训练等任务中的应用。自发布以来,维基百科(wiki2019zh)数据集已经成为中文自然语言处理领域重要的基础资源之一。
当前挑战
在构建维基百科(wiki2019zh)数据集的过程中,研究人员面临了多方面的挑战。首先,如何从大规模的原始数据中提取出高质量的中文词条是一大挑战。其次,数据清洗和格式化过程中保持词条的结构完整性和语义准确性同样具有难度。此外,随着数据规模的扩大,如何有效地存储和访问数据也成为了技术上的挑战。在研究领域,如何利用该数据集训练出具有更高准确性和泛化能力的模型,以及如何处理数据中存在的偏差和不确定性,都是当前面临的挑战。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集是中文自然语言处理领域的重要资源,其最经典的使用场景在于构建和预训练中文词向量模型。通过该数据集中丰富的中文词条,研究人员可以训练出能够捕捉中文词汇丰富语义的词向量,进而提高下游任务的性能,例如文本分类、情感分析等。
解决学术问题
该数据集解决了中文自然语言处理中缺乏大规模、高质量中文语料的问题,为学术研究提供了丰富的数据支持。它使得研究者能够更好地进行词向量训练、语言模型构建等基础性工作,从而推动中文信息处理技术的发展。
衍生相关工作
基于维基百科(wiki2019zh)数据集,研究者们已经开展了一系列相关工作,如构建了适用于中文的预训练语言模型,开发了针对特定领域的知识问答系统,以及实现了基于深度学习的文本生成模型等。这些工作不仅推动了中文自然语言处理领域的发展,也为相关应用的落地提供了技术支持。
以上内容由遇见数据集搜集并总结生成



