维基百科json版(wiki2019zh)

github2020-10-08 更新2024-05-31 收录

下载链接：

https://github.com/WL-Peng/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练语料或构建词向量，也可用于构建知识问答。数据结构包括id、url、title和text，其中title是词条标题，text是正文。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The data structure includes fields such as id, url, title, and text, where the title represents the entry heading and the text contains the main body content.

创建时间：

2020-09-17

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条
数据大小: 原始文件1.6G，压缩文件519M
更新时间: 2019年2月7日
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 通用中文语料，预训练语料，构建词向量，知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
数据大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 通用中文语料，预训练语料，词向量训练，标题生成模型，关键词生成模型

3. 百科问答(baike2018qa)

规模: 150万个问答
数据大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 通用中文语料，预训练语料，词向量训练，百科类问答

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
数据大小: 过滤后数据3.7G，压缩文件1.7G
时间跨度: 2015-2016年
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 构建百科类问答，话题预测模型，社区问答系统，通用中文语料，大模型预训练，词向量训练

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
数据大小: 原始数据1.1G，压缩文件596M
结构: {"english": <english>, "chinese": <chinese>}
用途: 中英文翻译系统训练，通用中文语料，预训练语料，词向量训练

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

贡献语料

联系方式: 发送邮件至 nlp_chinese_corpus@163.com
贡献奖励: 根据语料质量和量级，选出前20个贡献者，寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

维基百科json版(wiki2019zh)数据集的构建基于维基百科的中文词条，通过提取和整理104万个结构良好的中文词条，形成了包含词条标题、正文等信息的结构化数据。每个词条以JSON格式存储，包含id、url、title和text字段，确保了数据的完整性和易用性。数据集的构建过程注重数据的质量和多样性，旨在为中文自然语言处理任务提供高质量的语料支持。

特点

该数据集的特点在于其丰富的中文词条内容和结构化存储方式。每个词条不仅包含详细的正文信息，还通过JSON格式进行组织，便于直接用于模型训练和数据分析。数据集涵盖了广泛的主题领域，从经济学到历史、科学等，具有较高的多样性和代表性。此外，数据集的规模较大，能够满足大规模预训练模型的需求，尤其适用于构建知识问答系统和词向量模型。

使用方法

维基百科json版(wiki2019zh)数据集的使用方法灵活多样。用户可以直接下载数据集，并通过解析JSON格式的数据进行进一步处理。该数据集适用于多种自然语言处理任务，如预训练语言模型、构建词向量、知识问答系统等。用户可以根据具体需求，提取词条的标题和正文内容，用于模型的输入或训练数据的构建。此外，数据集的丰富主题和高质量内容也使其成为研究中文语言理解和生成任务的理想选择。

背景与挑战

背景概述

维基百科json版(wiki2019zh)数据集由Bright Xu等人于2019年发布，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料。该数据集包含了104万个结构良好的中文词条，涵盖了广泛的主题，如经济学、历史、科学等。其发布填补了当时中文语料库的空白，为研究人员和从业者提供了丰富的资源，推动了中文NLP技术的发展。该数据集不仅可用于预训练语言模型和构建词向量，还可用于知识问答系统的开发，极大地促进了中文信息处理的研究与应用。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，中文自然语言处理领域对大规模、高质量语料的需求日益增长，但获取和处理这些语料仍然存在困难，尤其是在数据量、时效性和处理复杂性方面。其次，数据集的构建过程中，如何确保数据的结构化和一致性是一个重要挑战。维基百科的词条格式多样，内容复杂，提取和整理这些数据需要大量的预处理工作，以确保数据的可用性和质量。此外，如何保持数据的更新与扩展，以满足不断变化的研究需求，也是数据集维护中的一大挑战。

常用场景

经典使用场景

维基百科json版(wiki2019zh)数据集在中文自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其结构化的词条数据为研究人员提供了丰富的文本资源，能够有效支持文本生成、语义理解等任务。通过该数据集，研究者可以训练出高质量的中文语言模型，进一步提升机器对中文文本的理解和生成能力。

衍生相关工作

基于wiki2019zh数据集，许多经典的研究工作得以展开。例如，研究者利用该数据集训练了ALBERT_Chinese等预训练语言模型，显著提升了中文NLP任务的性能。此外，该数据集还被用于构建中文词向量模型，如Word2Vec和GloVe，为中文文本的语义分析提供了重要支持。这些衍生工作进一步推动了中文自然语言处理领域的技术进步。

数据集最近研究