维基百科(wiki2019zh)

github2020-06-30 更新2024-05-31 收录

下载链接：

https://github.com/eyuansu62/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也适用于构建知识问答。数据结构包括id、url、title和text，其中title是词条标题，text是正文。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and is also applicable for building knowledge-based question-answering systems. The data structure includes id, url, title, and text, where the title represents the entry heading and the text contains the main body.

创建时间：

2020-03-05

原始信息汇总

数据集概述

本数据集专注于中文自然语言处理领域，提供了多种类型的中文语料，旨在支持中文NLP任务的研究与发展。数据集包括以下几个主要部分：

1. 维基百科(wiki2019zh)

规模: 104万个词条
格式: JSON
内容: 包含词条的ID、URL、标题和正文
用途: 预训练语料、构建词向量、知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
格式: JSON
内容: 包含新闻的ID、标题、内容、来源、时间、关键词和描述
用途: 预训练语料、词向量训练、标题生成、关键词生成

3. 百科问答(baike2018qa)

规模: 150万个问答
格式: JSON
内容: 包含问题的ID、类别、标题、描述和答案
用途: 预训练语料、构建百科类问答、句子相似性任务

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
格式: JSON
内容: 包含问题的ID、标题、描述、话题、回复内容、点赞数等
用途: 构建百科类问答、话题预测、社区问答系统、词向量训练

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
格式: JSON
内容: 包含英文和对应的中文句子
用途: 中英文翻译系统训练、词向量训练

数据集目标

一期目标 (2019年5月1号): 收集10个百万级中文语料和3个千万级中文语料。
二期目标 (2019年12月31日): 收集30个百万级中文语料、10个千万级中文语料和1个亿级中文语料。

贡献与更新

数据集欢迎贡献，贡献者可通过邮件nlp_chinese_corpus@163.com提供语料。
更新包括增加高质量社区问答json版和520万翻译语料。

数据集下载

各数据集可通过Google Drive或百度云盘下载，具体链接和密码在各数据集描述中提供。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于维基百科的中文词条，通过提取和整理104万个结构良好的中文词条，形成高质量的语料库。每个词条以JSON格式存储，包含词条的ID、URL、标题和正文信息。数据集的构建过程注重数据的完整性和结构性，确保每个词条的内容丰富且格式统一，便于后续的自然语言处理任务。

特点

该数据集的特点在于其广泛覆盖了中文维基百科的丰富内容，涵盖了从基础科学到人文社科的多个领域。每个词条的结构化信息（如标题、正文等）为研究者提供了清晰的文本数据，便于进行词向量训练、知识问答系统构建等任务。此外，数据集的规模较大，能够支持大规模模型的训练和评估。

使用方法

维基百科(wiki2019zh)数据集可用于多种自然语言处理任务，如预训练语言模型、构建词向量、知识问答系统等。用户可以通过下载JSON格式的数据文件，直接加载并使用其中的文本信息。数据集的结构化设计使得用户能够轻松提取所需的词条内容，并结合其他工具或模型进行进一步的分析和应用。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集由Bright Xu等人于2019年创建，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料。该数据集包含了104万个结构良好的中文词条，涵盖了广泛的主题，适用于预训练模型、词向量构建以及知识问答系统的开发。该数据集的发布填补了中文语料资源的空白，极大地推动了中文NLP领域的研究与应用，尤其是在预训练模型如ALBERT_Chinese的开发中发挥了重要作用。

当前挑战

维基百科(wiki2019zh)数据集在构建过程中面临的主要挑战包括数据清洗与结构化处理。由于维基百科数据的开放性和多样性，原始数据中包含了大量非结构化信息，如格式不统一的文本、冗余内容以及多语言混杂现象。此外，确保数据的时效性和准确性也是一个重要挑战，尤其是在中文语境下，语言表达和文化背景的多样性增加了数据处理的复杂性。在应用层面，如何有效利用该数据集进行模型训练，尤其是在多任务学习和跨领域迁移学习中，仍然是一个亟待解决的问题。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在中文自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其结构化的词条数据为研究者提供了丰富的上下文信息，使得模型能够更好地理解中文语义和语法结构。该数据集尤其适用于需要大规模语料支持的任务，如机器翻译、文本生成和知识问答系统的开发。

解决学术问题

该数据集解决了中文自然语言处理领域中语料稀缺的问题，尤其是在大规模预训练模型的需求背景下。通过提供超过100万个结构良好的中文词条，研究者能够更有效地训练和评估模型，提升其在中文任务上的表现。此外，该数据集还为中文语言模型的跨领域应用提供了坚实的基础，推动了中文NLP技术的发展。

衍生相关工作

维基百科(wiki2019zh)数据集催生了多项经典研究工作，例如基于该数据集的中文词向量模型和预训练语言模型（如ALBERT_Chinese）。这些工作不仅提升了中文NLP任务的性能，还为后续的研究提供了重要的参考和基准。此外，该数据集还被用于开发中文文本生成模型和跨语言翻译系统，进一步拓展了其应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集