维基百科(wiki2019zh)

github2020-11-23 更新2024-05-31 收录

下载链接：

https://github.com/Elmer-Ma/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练语料或构建词向量，也可用于构建知识问答。数据结构包括id、url、title和text，其中title是词条标题，text是正文。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The data structure includes id, url, title, and text, where the title represents the entry heading and the text contains the main body content.

创建时间：

2020-11-23

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条
数据大小: 原始文件1.6G，压缩文件519M
更新时间: 2019年2月7日
下载链接: Google Drive / 百度云盘
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 预训练语料、构建词向量、知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
数据大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
下载链接: Google Drive / 百度云盘，密码:k265
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 预训练语料、词向量训练、标题生成、关键词生成

3. 百科问答(baike2018qa)

规模: 150万个问答
数据大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
下载链接: Google Drive / 百度云盘，密码:fu45
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 预训练语料、词向量训练、百科问答构建

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
数据大小: 过滤后数据3.7G，压缩文件1.7G
时间跨度: 2015-2016年
下载链接: Google Drive
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 预训练语料、词向量训练、话题预测、社区问答系统构建

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
数据大小: 原始数据1.1G，压缩文件596M
下载链接: Google Drive
结构: {"english": <english>, "chinese": <chinese>}
用途: 中英文翻译系统训练、预训练语料、词向量训练

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1日）
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于中文维基百科的词条内容，涵盖了104万个结构良好的中文词条。数据以JSON格式存储，每个词条包含标题、正文、URL和唯一ID。数据通过自动化工具从维基百科的原始数据中提取，并经过格式化和清理，以确保其适用于自然语言处理任务。数据集的构建过程注重数据的完整性和一致性，旨在为中文NLP研究提供高质量的语料资源。

特点

该数据集的特点在于其广泛覆盖了中文维基百科的丰富内容，涵盖了从科学、文化到历史等多个领域的知识。每个词条的结构化信息（如标题、正文等）为研究者提供了丰富的上下文信息，便于进行文本分析、知识图谱构建等任务。此外，数据集的规模较大，能够支持大规模模型的训练，如预训练语言模型或词向量模型。数据的高质量和多样性使其成为中文NLP领域的重要资源。

使用方法

维基百科(wiki2019zh)数据集可用于多种自然语言处理任务，如预训练语言模型、词向量训练、知识问答系统构建等。研究者可以通过下载数据集并加载JSON文件，直接访问每个词条的标题和正文内容。数据集的结构化格式便于进行数据预处理和特征提取。此外，该数据集还可用于构建知识图谱或进行文本生成任务，为中文NLP研究提供了广泛的应用场景。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集由Bright Xu及其团队于2019年创建，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料。该数据集包含了104万个结构良好的中文词条，涵盖了广泛的主题，从经济学到历史、科学等。该数据集的发布填补了中文语料资源的空白，为中文NLP研究提供了重要的基础数据支持。通过提供丰富的文本信息，该数据集不仅可用于预训练语言模型，还可用于构建知识问答系统、词向量模型等。其影响力不仅限于学术界，还为工业界的自然语言处理应用提供了宝贵的资源。

当前挑战

维基百科(wiki2019zh)数据集在构建过程中面临多重挑战。首先，中文语料的获取与整理本身具有较高的复杂性，尤其是在确保数据的时效性与多样性方面。其次，数据清洗与结构化处理需要大量的人工与计算资源，以确保语料的高质量与一致性。此外，如何有效利用这些语料进行模型训练，尤其是在处理大规模数据时，计算资源与算法的优化成为关键问题。最后，尽管该数据集为中文NLP研究提供了重要支持，但在实际应用中，如何进一步提升模型的泛化能力与准确性，仍是亟待解决的挑战。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其结构良好的中文词条为研究者提供了丰富的语料资源，能够有效支持文本生成、语义理解等任务的模型训练。特别是在中文NLP任务中，该数据集为模型提供了高质量的知识背景，帮助提升模型在问答系统、文本分类等任务中的表现。

解决学术问题

维基百科(wiki2019zh)数据集解决了中文自然语言处理领域中语料稀缺的问题。通过提供百万级结构化的中文词条，研究者能够更便捷地获取大规模、高质量的语料资源，从而推动中文预训练模型的发展。该数据集为中文NLP任务提供了坚实的基础，显著提升了模型在语义理解、知识问答等任务中的性能。

衍生相关工作

基于维基百科(wiki2019zh)数据集，研究者开发了多种经典的中文预训练模型，如ALBERT_Chinese等。这些模型在中文NLP任务中表现出色，显著提升了文本分类、语义相似度计算等任务的性能。此外，该数据集还催生了许多开源工具和框架，如中文词向量模型和知识图谱构建工具，进一步推动了中文自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成