维基百科(wiki2019zh)

github2020-08-01 更新2024-05-31 收录

下载链接：

https://github.com/transformerzhou/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练语料或构建词向量，也适用于构建知识问答。数据集结构包括id、url、title和text，其中title是词条标题，text是正文。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and is also applicable for building knowledge-based question-answering systems. The dataset structure includes id, url, title, and text, where the title represents the entry heading and the text contains the main body content.

创建时间：

2020-08-01

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条
文件大小: 原始文件1.6G，压缩文件519M
更新时间: 2019年2月7日
下载链接: Google Drive 或百度云盘
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 预训练语料、构建词向量、知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
文件大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
下载链接: Google Drive 或百度云盘，密码:k265
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 预训练语料、词向量训练、标题生成、关键词生成

3. 百科问答(baike2018qa)

规模: 150万个问答
文件大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
下载链接: Google Drive 或百度云盘，密码:fu45
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 预训练语料、词向量训练、百科问答构建

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
文件大小: 过滤后数据3.7G，压缩文件1.7G
时间跨度: 2015-2016年
下载链接: Google Drive
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 预训练语料、词向量训练、话题预测、社区问答系统构建

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
文件大小: 原始数据1.1G，压缩文件596M
下载链接: Google Drive
结构: {"english": <english>, "chinese": <chinese>}
用途: 中英文翻译系统训练、预训练语料、词向量训练

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)
添加520万翻译语料(translation2019zh)

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于维基百科的中文词条，通过提取和整理104万个结构良好的中文词条，形成了该数据集的核心内容。每个词条以JSON格式存储，包含词条的ID、URL、标题和正文信息。数据集的构建过程注重数据的结构化和标准化，确保每个词条的信息完整且易于处理。此外，数据集还经过了去重和压缩处理，以优化存储和传输效率。

特点

维基百科(wiki2019zh)数据集的特点在于其丰富的中文语料和高质量的结构化数据。每个词条不仅包含详细的正文内容，还通过标题和URL提供了额外的上下文信息。数据集涵盖了广泛的主题，从社会科学到自然科学，适用于多种自然语言处理任务。此外，数据集的JSON格式设计使得数据易于解析和使用，适合用于预训练模型、词向量构建以及知识问答系统的开发。

使用方法

维基百科(wiki2019zh)数据集的使用方法多样，主要适用于中文自然语言处理领域的研究和应用。用户可以通过下载数据集并解析JSON文件，获取每个词条的详细信息。该数据集可用于训练中文词向量模型、构建知识问答系统或作为预训练模型的语料库。此外，数据集的结构化设计使得用户可以轻松提取特定主题的词条，进行针对性的研究或应用开发。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集由Bright Xu等人于2019年创建，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料。该数据集包含了104万个结构良好的中文维基百科词条，涵盖了广泛的主题，从社会科学到自然科学，为中文NLP任务如预训练、词向量构建和知识问答提供了丰富的资源。该数据集的发布填补了当时中文语料稀缺的空白，极大地推动了中文NLP领域的研究与应用。其影响力不仅体现在学术研究中，还广泛应用于工业界的语言模型训练和知识图谱构建等领域。

当前挑战

维基百科(wiki2019zh)数据集在构建和应用中面临多重挑战。首先，中文语料的多样性和复杂性使得数据清洗和结构化处理成为一项艰巨任务，尤其是在确保数据的一致性和准确性方面。其次，尽管数据集规模较大，但其覆盖的主题和领域仍存在不均衡现象，可能导致某些特定领域的模型训练效果不佳。此外，数据集的时效性也是一个挑战，维基百科内容随时间不断更新，如何保持数据集的实时性并反映最新的知识更新是一个持续的问题。最后，如何有效利用该数据集进行跨领域迁移学习，尤其是在低资源语言任务中的应用，仍需进一步探索。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其结构化的词条内容为研究者提供了丰富的语义信息，使得模型能够更好地理解和生成中文文本。该数据集尤其适用于知识问答系统的开发，能够为问答模型提供高质量的知识库支持。

衍生相关工作

基于维基百科(wiki2019zh)数据集，许多经典的自然语言处理工作得以衍生。例如，ALBERT_Chinese模型的预训练过程便使用了该数据集，显著提升了中文语言模型的性能。此外，该数据集还被用于构建中文词向量模型，如Wiki中文语料词向量模型，为中文文本的语义分析提供了重要支持。

数据集最近研究