维基百科(wiki2019zh)
收藏github2019-09-24 更新2024-05-31 收录
下载链接:
https://github.com/sevenold/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练的语料或构建词向量,也可用于构建知识问答。
This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.
创建时间:
2019-09-24
原始信息汇总
数据集概述
1. 维基百科(wiki2019zh)
- 数据量: 104万个词条
- 文件大小: 原始文件1.6G,压缩文件519M
- 更新时间: 2019年2月7日
- 结构: 包含id, url, title, text等字段
- 用途: 通用中文语料,预训练语料,构建词向量,知识问答
2. 新闻语料(news2016zh)
- 数据量: 250万篇新闻
- 文件大小: 原始数据9G,压缩文件3.6G
- 时间跨度: 2014-2016年
- 结构: 包含news_id, title, content, source, time, keywords, desc等字段
- 用途: 通用中文语料,训练词向量,预训练语料,标题生成,关键词生成
3. 百科问答(baike2018qa)
- 数据量: 150万个问答
- 文件大小: 原始数据1G多,压缩文件663M
- 更新时间: 2018年
- 结构: 包含qid, category, title, desc, answer等字段
- 用途: 通用中文语料,训练词向量,预训练语料,百科类问答
4. 社区问答json版(webtext2019zh)
- 数据量: 410万个问答
- 文件大小: 过滤后数据3.7G,压缩文件1.7G
- 时间跨度: 2015-2016年
- 结构: 包含qid, title, desc, topic, star, content, answer_id, answerer_tags等字段
- 用途: 通用中文语料,大模型预训练语料,训练词向量,话题预测,社区问答系统
5. 翻译语料(translation2019zh)
- 数据量: 520万个中英文平行语料
- 文件大小: 原始数据1.1G,压缩文件596M
- 结构: 包含english, chinese等字段
- 用途: 训练中英文翻译系统,通用中文语料,训练词向量,预训练语料
数据集目标
- 一期目标: 10个百万级中文语料 & 3个千万级中文语料(2019年5月1日)
- 二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
数据集更新
- 增加高质量社区问答json版(webtext2019zh)
- 添加520万翻译语料(translation2019zh)
搜集汇总
数据集介绍

构建方式
维基百科数据集(wiki2019zh)的构建是通过从维基百科抓取中文词条,经过筛选和清洗,形成了包含100万个结构良好、具有标题和正文属性的中文词条的数据集。每个词条都包含唯一的标识符、URL链接、标题和正文,其中正文通过'
'进行分段处理,以确保文本的清晰和可用性。
特点
该数据集的特点在于其规模宏大、内容丰富,覆盖了广泛的知识领域。数据集经过精心筛选和清洗,确保了词条的质量和结构的规范性。此外,数据集以JSON格式存储,便于集成和使用。它不仅适用于预训练语言模型,也是构建词向量、进行知识问答和文本生成等任务的宝贵资源。
使用方法
使用该数据集时,用户可以直接从提供的下载链接获取压缩后的JSON文件,并解压以获取数据。数据集可以使用标准的数据处理库进行读取和处理,如Python的json库。针对具体任务,用户可能需要对数据进行进一步的预处理,例如分词、去停用词等,以适应不同的模型和算法需求。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集,创建于2019年,是由Brightmart团队贡献的包含100万个结构良好的中文词条的语料库。该数据集旨在为中文自然语言处理领域发展贡献力量,提供大规模的中文文本资源,可供训练词向量、构建知识问答系统等。其核心研究问题是解决中文自然语言处理中缺乏大规模高质量语料的问题,对相关领域产生了重要影响。
当前挑战
在构建维基百科(wiki2019zh)数据集的过程中,主要面临的挑战包括:1) 如何从大规模文本中筛选出高质量的中文词条,确保数据的可用性和准确性;2) 如何处理和存储大规模数据集,以保证数据的有效访问和处理效率;3) 数据集构建完成后,如何确保其能够在多样化的自然语言处理任务中具有广泛的适用性。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集因其结构良好、内容丰富的中文词条,被广泛用于预训练自然语言处理模型。经典的使用场景包括作为构建词向量的基础语料库,或是作为深度学习模型的预训练语料,以提升模型对中文语言的理解能力。
解决学术问题
该数据集解决了中文自然语言处理领域缺乏大规模、高质量语料的问题,为学术研究提供了可靠的数据基础。它帮助研究者进行词向量训练、知识图谱构建、百科问答系统开发等,推动了中文信息处理技术的发展。
衍生相关工作
基于该数据集,研究者衍生出多项相关工作,如构建了适用于中文的预训练模型RoBERTa中文版,开发了多种基于维基百科的百科问答系统,以及开展了中文文本生成和句子相似性任务的研究。
以上内容由遇见数据集搜集并总结生成



