维基百科(wiki2019zh)
收藏github2020-08-29 更新2024-05-31 收录
下载链接:
https://github.com/Qigqi/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练的语料或构建词向量,也可用于构建知识问答。数据结构包括id、url、title和text,其中title是词条的标题,text是正文。
This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The data structure includes id, url, title, and text, where the title represents the heading of the entry and the text contains the main body.
创建时间:
2019-11-11
原始信息汇总
数据集概述
1. 维基百科(wiki2019zh)
- 数据量: 104万个词条
- 文件大小: 原始文件1.6G,压缩文件519M
- 更新时间: 2019年2月7日
- 下载链接: Google Drive,百度云盘
- 结构:
{"id":<id>,"url":<url>,"title":<title>,"text":<text>} - 用途: 通用中文语料,预训练语料,构建词向量,知识问答
2. 新闻语料(news2016zh)
- 数据量: 250万篇新闻
- 文件大小: 原始数据9G,压缩文件3.6G
- 时间跨度: 2014-2016年
- 下载链接: Google Drive
- 结构:
{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>} - 用途: 通用中文语料,训练词向量,预训练语料,标题生成,关键词生成
3. 百科问答(baike2018qa)
- 数据量: 150万个问答
- 文件大小: 原始数据1G多,压缩文件663M
- 更新时间: 2018年
- 下载链接: Google Drive,百度云盘,密码:fu45
- 结构:
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>} - 用途: 通用中文语料,训练词向量,预训练语料,百科类问答
4. 社区问答json版(webtext2019zh)
- 数据量: 410万个问答
- 文件大小: 过滤后数据3.7G,压缩文件1.7G
- 时间跨度: 2015-2016年
- 下载链接: Google Drive
- 结构:
{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>} - 用途: 构建百科类问答,话题预测,社区问答系统,通用中文语料,大模型预训练
5. 翻译语料(translation2019zh)
- 数据量: 520万个中英文平行语料
- 文件大小: 原始数据1.1G,压缩文件596M
- 下载链接: Google Drive
- 结构:
{"english": <english>, "chinese": <chinese>} - 用途: 中英文翻译系统,通用中文语料,训练词向量,预训练语料
搜集汇总
数据集介绍

构建方式
维基百科(wiki2019zh)数据集的构建基于维基百科的中文词条,涵盖了104万个结构良好的中文词条。数据以JSON格式存储,每个词条包含唯一的ID、URL、标题和正文内容。正文通过换行符进行分段,确保了数据的结构化和易读性。数据集的构建过程注重数据的完整性和质量,旨在为中文自然语言处理任务提供高质量的语料支持。
特点
该数据集的特点在于其广泛覆盖了中文维基百科的词条,内容涵盖多个领域,如经济学、历史、科学等。每个词条的结构清晰,标题与正文内容分离,便于进行文本分析和处理。此外,数据集的规模较大,适合用于训练大规模的自然语言处理模型,如预训练语言模型或构建知识问答系统。
使用方法
维基百科(wiki2019zh)数据集可用于多种自然语言处理任务,如预训练语言模型、构建词向量、知识问答系统等。用户可以通过下载数据集,直接加载JSON格式的数据进行使用。每个词条的标题和正文内容可以分别用于不同的任务,例如标题可用于分类任务,正文内容可用于生成任务或文本理解任务。数据集的格式简单明了,便于开发者快速集成到现有的自然语言处理流程中。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集由Bright Xu及其团队于2019年创建,旨在为中文自然语言处理(NLP)领域提供大规模、高质量的中文语料。该数据集包含了104万个结构良好的中文词条,涵盖了广泛的主题,从经济学到社会科学等多个领域。该数据集的发布极大地推动了中文NLP研究的发展,尤其是在预训练模型和词向量构建方面。通过提供丰富的语料资源,该数据集为研究人员和从业者提供了一个宝贵的工具,以探索和解决中文NLP中的复杂问题。
当前挑战
维基百科(wiki2019zh)数据集在构建过程中面临了多重挑战。首先,中文语料的获取和处理相对困难,尤其是在确保数据的时效性和质量方面。其次,数据集的构建需要处理大量的非结构化文本,并确保其格式的统一性和可用性。此外,数据集的扩展和维护也是一个持续的挑战,特别是在保持数据更新和扩充的同时,确保其与最新研究成果的兼容性。这些挑战不仅影响了数据集的构建过程,也对使用该数据集进行研究的学者提出了更高的要求。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集作为中文自然语言处理领域的重要资源,广泛应用于预训练语言模型和词向量的构建。其结构化的词条信息为研究者提供了丰富的文本数据,支持从基础的词频统计到复杂的语义分析等多种任务。特别是在知识问答系统的开发中,该数据集通过提供详尽的词条内容,极大地促进了问答准确性和系统智能化的提升。
解决学术问题
该数据集有效解决了中文自然语言处理领域中高质量语料稀缺的问题。通过提供大量结构化的中文词条,研究者能够更便捷地进行语言模型的训练和优化,从而推动了中文信息抽取、语义理解等关键技术的研究进展。此外,该数据集还为跨语言研究提供了基础,支持中英文之间的翻译模型训练,进一步拓展了其学术价值。
衍生相关工作
基于维基百科(wiki2019zh)数据集,许多经典的自然语言处理工作得以展开。例如,ALBERT_Chinese等预训练模型的开发,极大地提升了中文语言模型的表现。此外,该数据集还催生了一系列关于中文词向量、语义相似度计算以及知识图谱构建的研究,为中文自然语言处理领域的发展奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



