维基百科(wiki2019zh)

github2020-04-15 更新2024-05-31 收录

下载链接：

https://github.com/fancyerii/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

维基百科json版，包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。

Wikipedia JSON version, containing 1.04 million well-structured Chinese entries, suitable for pre-training corpora or constructing word vectors, and also applicable for building knowledge-based question answering systems.

创建时间：

2019-11-27

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条
数据大小: 原始文件1.6G，压缩文件519M
更新时间: 2019年2月7日
下载链接: Google Drive / 百度云盘
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 预训练语料、构建词向量、知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
数据大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
下载链接: Google Drive
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 预训练语料、词向量训练、标题生成、关键词生成

3. 百科问答(baike2018qa)

规模: 150万个问答
数据大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
下载链接: Google Drive / 百度云盘，密码:fu45
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 预训练语料、词向量训练、百科问答

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
数据大小: 过滤后数据3.7G，压缩文件1.7G
时间跨度: 2015-2016年
下载链接: Google Drive
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 预训练语料、词向量训练、话题预测、社区问答系统

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
数据大小: 原始数据1.1G，压缩文件596M
下载链接: Google Drive
结构: {"english": <english>, "chinese": <chinese>}
用途: 中英文翻译系统、预训练语料、词向量训练

搜集汇总

数据集介绍

构建方式

维基百科（wiki2019zh）数据集的构建，是通过从维基百科抓取中文词条，经过筛选和清洗，最终形成包含100万个结构良好中文词条的语料库。每个词条由标题和正文构成，并通过JSON格式进行存储，确保了数据结构的规范性和易用性。

特点

该数据集的特点在于其规模较大，包含了100万个中文词条，覆盖了广泛的主题领域，为研究者提供了丰富的中文语言资源。数据集经过精心处理，保证了词条质量的高标准，适合用于自然语言处理、知识图谱构建、词向量训练等多种应用场景。

使用方法

用户可以通过下载完整的维基百科数据集进行离线分析和处理。数据集以JSON格式存储，便于用户使用编程语言进行读取和解析。针对不同的研究需求，用户可以提取相应的字段，如标题、正文等，进行进一步的文本分析和模型训练。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是一款大规模的中文语料库，由Bright Xu等于2019年推出，旨在为中文自然语言处理领域提供高质量的语料资源。该数据集包含了100万个结构良好的中文词条，来源于维基百科，每个词条由标题和正文组成，适合用于预训练语料或构建词向量，并可用于知识问答等任务。该数据集的发布，极大地推动了中文NLP领域的研究与应用。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，主要面临的挑战包括：1）如何从海量的维基百科数据中提取出高质量的中文词条，保证数据的清洁和准确性；2）如何确保数据集的多样性，满足不同研究场景的需求；3）如何处理和存储大规模数据，保证数据集的可访问性和可维护性。在解决领域问题方面，该数据集面临的挑战包括如何利用这些词条进行有效的知识提取和问答系统构建，以及如何提高词条数据的语义表示能力。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集作为大规模的中文语料库，其经典使用场景主要在于为自然语言处理任务提供丰富的训练数据。该数据集包含100万个结构良好的中文词条，可被广泛用于构建和训练语言模型，如词向量模型，以及用于预训练任务，为诸如文本分类、信息抽取、问答系统等NLP应用提供基础支撑。

解决学术问题

该数据集解决了中文自然语言处理领域中缺乏大规模、高质量语料的难题，有助于学者和研究人员进行语言模型训练和算法验证。通过提供结构化的数据，它使得构建知识问答系统、进行文本数据挖掘和语义分析等学术研究成为可能，从而推动了中文信息处理技术的发展。

衍生相关工作

基于维基百科(wiki2019zh)数据集，研究者们衍生出了一系列相关工作，如构建预训练语言模型、开发面向特定领域的问答系统、进行知识图谱的构建和研究等。这些工作不仅推动了中文自然语言处理领域的发展，也为相关应用的深入研究和商业化部署提供了坚实的基础。

以上内容由遇见数据集搜集并总结生成