维基百科json版(wiki2019zh)

github2020-06-08 更新2024-05-31 收录

下载链接：

https://github.com/love1life/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.

创建时间：

2019-08-08

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条
数据大小: 原始文件1.6G，压缩文件519M
更新时间: 2019年2月7日
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 通用中文语料，预训练语料，构建词向量，知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
数据大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 通用中文语料，预训练语料，词向量训练，标题生成模型，关键词生成模型

3. 百科问答(baike2018qa)

规模: 150万个问答
数据大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 通用中文语料，预训练语料，词向量训练，百科类问答

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
数据大小: 过滤后数据3.7G，压缩文件1.7G
时间跨度: 2015-2016年
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 通用中文语料，预训练语料，词向量训练，话题预测模型，社区问答系统

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
数据大小: 原始数据1.1G，压缩文件596M
结构: {"english": <english>, "chinese": <chinese>}
用途: 中英文翻译系统，通用中文语料，预训练语料，词向量训练

搜集汇总

数据集介绍

构建方式

维基百科json版(wiki2019zh)数据集的构建基于维基百科的中文词条，通过提取和整理104万个结构良好的中文词条，形成了该数据集的核心内容。每个词条以JSON格式存储，包含词条的ID、URL、标题和正文信息，正文通过换行符进行分段，确保了数据的结构化和易用性。数据集的构建过程注重数据的完整性和质量，旨在为中文自然语言处理领域提供高质量的语料资源。

特点

该数据集的特点在于其丰富的内容覆盖和高质量的结构化数据。每个词条不仅包含详细的正文内容，还通过标题和URL提供了额外的上下文信息，便于进行知识图谱构建或问答系统的开发。此外，数据集的规模较大，涵盖了广泛的主题领域，能够满足多种自然语言处理任务的需求，如预训练语言模型、词向量生成以及知识问答系统的构建。

使用方法

使用该数据集时，用户可以通过下载提供的压缩文件获取数据，解压后直接读取JSON格式的文件。每个JSON对象包含一个词条的详细信息，用户可以根据需要提取标题、正文等内容进行进一步处理。该数据集适用于多种自然语言处理任务，如预训练语言模型、词向量生成、知识问答系统构建等。用户还可以通过解析JSON结构，结合词条的标题和正文内容，进行更复杂的文本分析或知识抽取任务。

背景与挑战

背景概述

维基百科json版(wiki2019zh)数据集由brightmart团队于2019年发布，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料。该数据集包含104万个结构良好的中文维基百科词条，涵盖了广泛的主题，适用于预训练语言模型、词向量构建以及知识问答系统的开发。该数据集的发布填补了当时中文语料资源的空白，极大地推动了中文NLP领域的研究与应用。其结构化的JSON格式使得数据易于处理和分析，成为中文NLP研究中的重要资源之一。

当前挑战

该数据集在构建过程中面临的主要挑战包括数据清洗与结构化处理的复杂性。维基百科的原始数据包含大量非结构化信息，如HTML标签、注释和冗余内容，需经过复杂的预处理才能转化为高质量的JSON格式。此外，确保数据的时效性和多样性也是一大挑战，尤其是在中文语境下，语言表达的多样性和文化背景的复杂性增加了数据处理的难度。在应用层面，如何有效利用该数据集进行模型训练，尤其是在处理长文本和跨领域知识时，仍然是一个技术难题。

常用场景

经典使用场景

维基百科json版(wiki2019zh)数据集在自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其结构化的词条数据，包含丰富的语义信息，能够为模型提供高质量的中文语料支持。通过该数据集，研究者可以训练出具备强大语义理解能力的模型，进而应用于文本分类、信息检索等任务。

解决学术问题

该数据集解决了中文自然语言处理领域缺乏大规模、高质量语料的问题。通过提供104万个结构良好的中文词条，研究者能够更高效地训练语言模型，提升模型在中文语境下的表现。此外，该数据集还为知识问答系统的构建提供了基础支持，推动了中文NLP技术的发展。

衍生相关工作

基于维基百科json版(wiki2019zh)数据集，衍生了许多经典的自然语言处理工作。例如，研究者利用该数据集训练了中文词向量模型，并在文本分类、情感分析等任务中取得了显著效果。此外，该数据集还被用于构建知识问答系统，推动了中文NLP技术在智能对话系统中的应用。

以上内容由遇见数据集搜集并总结生成