维基百科(wiki2019zh)

github2019-02-15 更新2024-05-31 收录

下载链接：

https://github.com/andysongsx/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

维基百科json版包含104万个词条，可作为通用中文语料，用于预训练的语料或构建词向量，也可用于构建知识问答。

The Wikipedia JSON version contains 1.04 million entries, serving as a general Chinese corpus. It can be utilized for pre-training materials or constructing word vectors, and is also suitable for building knowledge-based question-answering systems.

创建时间：

2019-02-15

原始信息汇总

数据集概述

维基百科(wiki2019zh)

规模: 1,043,224个词条，原始文件大小1.6G，压缩文件519M。
更新时间: 2019年2月7日。
结构: 每个词条包含id, url, title, text字段。
用途: 通用中文语料，预训练语料，构建词向量，知识问答。

新闻语料(news2016zh)

规模: 250万篇新闻，原始数据9G，压缩文件3.6G。
时间范围: 2014-2016年。
结构: 包含news_id, title, content, source, time, keywords, desc字段。
用途: 通用中文语料，词向量训练，预训练语料，标题生成，关键词生成。

百科类问答(baike2018qa)

规模: 150万个问答，原始数据1G多，压缩文件663M。
结构: 包含qid, category, title, desc, answer字段。
用途: 通用中文语料，词向量训练，预训练语料，百科类问答。

翻译语料(translation2019zh)

规模: 520万个中英文平行语料，原始数据1.1G，压缩文件596M。
结构: 包含english, chinese字段，中英文一一对应。
用途: 中英文翻译系统训练，通用中文语料，词向量训练，预训练语料。

数据集贡献

联系方式: nlp_chinese_corpus@163.com
贡献目标: 扩充语料库，包括百万级和千万级中文语料。
贡献奖励: 根据语料质量和量级，选出前20名贡献者，提供键盘、鼠标等物品。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于2019年2月7日的维基百科中文版，包含了1,043,224个词条。该数据集通过提取维基百科的词条内容，将其结构化为JSON格式，每个词条包含ID、URL、标题和正文信息。数据集的原始文件大小为1.6G，压缩后为519M，确保了数据的高效存储和传输。

特点

维基百科(wiki2019zh)数据集具有广泛的应用潜力，可作为通用中文语料用于预训练模型或构建词向量。其特点在于包含了大量高质量的文本信息，涵盖了多个领域的知识，适合用于知识问答系统的构建。此外，数据集的结构化格式便于直接用于自然语言处理任务，如文本分类、信息检索等。

使用方法

使用维基百科(wiki2019zh)数据集时，用户可以通过提供的直接下载链接获取数据。数据以JSON格式存储，每个词条包含ID、URL、标题和正文信息。用户可以根据需要提取和处理数据，例如用于训练词向量模型、构建知识图谱或进行文本分析。数据集的结构化设计使得数据处理和分析过程更加高效和便捷。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是由一群致力于中文自然语言处理的研究人员和机构于2019年创建的，旨在为中文语料库的构建和扩展提供支持。该数据集包含了104万个维基百科词条，涵盖了广泛的知识领域，为研究人员提供了一个丰富且多样化的语料资源。其创建的主要目的是解决在中文自然语言处理领域中，获取大规模高质量语料的困难。通过提供结构化的数据，该数据集不仅支持词向量训练和预训练模型的构建，还为知识问答系统的发展提供了基础。

当前挑战

尽管维基百科(wiki2019zh)数据集为中文自然语言处理领域提供了宝贵的资源，但其构建和应用过程中仍面临若干挑战。首先，数据的质量控制是一个重要问题，包括文本的准确性、一致性和完整性。其次，数据集的规模虽然庞大，但在处理特定领域或专业知识时，可能仍显不足，需要进一步的细分和扩展。此外，数据集的更新和维护也是一个持续的挑战，以确保其与最新的知识和技术发展保持同步。最后，如何有效地利用这些数据进行模型训练和应用，特别是在处理多语言和跨文化内容时，仍需深入研究和探索。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在中文自然语言处理领域中被广泛应用于预训练模型的构建。其丰富的文本内容和多样的主题覆盖，使得该数据集成为训练词向量和语言模型的理想选择。通过该数据集，研究者可以有效地提升模型对中文语境的理解能力，从而在文本分类、情感分析和机器翻译等任务中取得更优的表现。

衍生相关工作

基于维基百科(wiki2019zh)数据集，研究者开发了多种词向量模型和预训练语言模型，如BERT和GPT系列模型在中文处理中的应用。这些模型通过利用维基百科的丰富语料，显著提升了中文文本处理的性能。此外，该数据集还激发了关于多语言对齐和跨语言迁移学习的研究，推动了全球自然语言处理技术的发展。

数据集最近研究