维基百科(wiki2019zh)

github2019-11-27 更新2024-05-31 收录

下载链接：

https://github.com/teng1996/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

104万个词条，可用作通用中文语料，预训练语料或构建词向量，也可用于构建知识问答。

1.04 million entries, which can be used as a general Chinese corpus, pre-training corpus or for constructing word vectors, and also for building knowledge-based question answering systems.

创建时间：

2019-11-27

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

数据量: 104万个词条
文件大小: 原始文件1.6G，压缩文件519M
更新时间: 2019年2月7日
下载链接: Google Drive 或百度云盘
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 通用中文语料，预训练语料，构建词向量，知识问答

2. 新闻语料(news2016zh)

数据量: 250万篇新闻
文件大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
下载链接: Google Drive
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 通用中文语料，预训练语料，词向量训练，标题生成模型，关键词生成模型

3. 百科问答(baike2018qa)

数据量: 150万个问答
文件大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
下载链接: Google Drive 或百度云盘，密码:fu45
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 通用中文语料，预训练语料，词向量训练，百科类问答构建

4. 社区问答json版(webtext2019zh)

数据量: 410万个问答
文件大小: 过滤后数据3.7G，压缩文件1.7G
时间跨度: 2015-2016年
下载链接: Google Drive
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 构建百科类问答，话题预测模型，社区问答系统，通用中文语料，预训练语料，词向量训练

5. 翻译语料(translation2019zh)

数据量: 520万个中英文平行语料
文件大小: 原始数据1.1G，压缩文件596M
下载链接: Google Drive
结构: {"english": <english>, "chinese": <chinese>}
用途: 中英文翻译系统训练，通用中文语料，预训练语料，词向量训练

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建，是通过从维基百科抓取中文词条，并筛选出结构良好的100万个词条而形成。每个词条包含标题、正文及对应的URL链接，正文通过' '进行分段处理，确保了数据的结构化和可读性。

特点

该数据集的特点在于其内容丰富、覆盖面广，包含了各类知识领域的词条，为中文自然语言处理提供了丰富的语料资源。同时，数据集经过筛选和处理，保证了词条的结构良好和质量高，适用于多种NLP任务，如预训练模型、构建词向量、知识问答等。

使用方法

使用该数据集时，用户可以直接下载并解压后获取JSON格式的数据。数据中的每个条目都包含了词条的标题、正文和URL，方便用户进行数据分析和模型训练。针对不同的应用场景，用户可以根据数据集中的字段如标题、正文等信息进行相应的预处理和特征工程。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集，创建于2019年，是由Bright Xu主导的大型中文语料库项目之一。该数据集包含了100万个结构良好的中文词条，旨在为中文自然语言处理领域提供高质量的语料资源。其核心研究问题是为NLP领域提供大规模、高质量的中文文本数据，以促进中文语言模型的训练与评估。维基百科数据集对相关领域的影响力显著，为众多研究提供了基础数据支撑，推动了中文信息处理技术的发展。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，主要面临的挑战包括如何确保词条的质量与结构良好性，以及如何处理大规模数据集的存储与传输问题。此外，数据集在解决领域问题，如中文词向量训练、预训练模型构建等方面，也面临着如何提高数据标注一致性、如何有效利用类别信息以及如何评估模型性能等挑战。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集作为大规模的中文语料库，其经典使用场景主要集中于自然语言处理领域的基础研究与应用开发。该数据集常被用于构建和训练语言模型，如词向量模型，以及作为深度学习模型的预训练语料，从而提升模型在中文理解、生成等任务上的表现。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集可用于搜索引擎优化、机器翻译系统训练、智能问答系统开发等场景。例如，通过该数据集训练出的模型能够支持搜索引擎更准确地理解用户查询意图，提高搜索结果的相关性。

衍生相关工作

基于维基百科(wiki2019zh)数据集，研究者们衍生出了一系列相关工作，包括构建了适用于不同任务的子数据集、开发了针对特定需求的自然语言处理模型、以及进行了跨领域的知识融合研究等。这些工作进一步扩展了数据集的应用范围，促进了相关技术的发展。

以上内容由遇见数据集搜集并总结生成