维基百科(wiki2019zh)

github2020-06-04 更新2024-05-31 收录

下载链接：

https://github.com/ZbinWang/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。数据结构包括id、url、title和text，其中title是词条的标题，text是正文。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The data structure includes id, url, title, and text, where the title represents the heading of the entry and the text contains the main body.

创建时间：

2019-12-20

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条
数据大小: 原始文件1.6G，压缩文件519M
更新时间: 2019.2.7
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 预训练语料、构建词向量、知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
数据大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 预训练语料、词向量训练、标题生成、关键词生成

3. 百科问答(baike2018qa)

规模: 150万个问答
数据大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 预训练语料、词向量训练、百科问答

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
数据大小: 过滤后数据3.7G，压缩文件1.7G
时间跨度: 2015-2016年
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 预训练语料、词向量训练、话题预测、社区问答系统

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
数据大小: 原始数据1.1G，压缩文件596M
结构: {"english": <english>, "chinese": <chinese>}
用途: 中英文翻译系统、预训练语料、词向量训练

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)
添加520万翻译语料(translation2019zh)

贡献语料

贡献中文语料，请发送邮件至 nlp_chinese_corpus@163.com
贡献者将根据语料质量和量级获得奖励

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于维基百科的中文词条，通过提取和整理104万个结构良好的中文词条，形成了高质量的语料库。每个词条以JSON格式存储，包含词条的ID、URL、标题和正文信息。正文部分通过换行符进行分段，确保了数据的结构化和易读性。数据集的构建过程注重数据的完整性和多样性，涵盖了广泛的主题领域，为中文自然语言处理任务提供了丰富的语料支持。

使用方法

维基百科(wiki2019zh)数据集的使用方法灵活多样，适用于多种自然语言处理任务。研究者可以通过下载数据集，直接将其用于预训练语言模型或构建词向量。数据集的JSON格式设计使得其易于被编程语言解析，如Python等。此外，数据集的结构化信息（如标题和正文）可以用于构建知识问答系统或进行文本分类任务。通过合理利用数据集中的丰富信息，研究者可以开发出高效的中文自然语言处理模型，推动该领域的技术进步。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集由Bright Xu及其团队于2019年创建，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料。该数据集包含了104万个结构良好的中文词条，涵盖了广泛的主题，如经济学、历史、科学等。这些数据不仅为中文NLP研究提供了丰富的资源，还支持了多种任务，如预训练语言模型、词向量构建和知识问答系统的开发。该数据集的发布极大地推动了中文NLP领域的发展，尤其是在缺乏大规模中文语料的背景下，填补了这一领域的空白。

当前挑战

维基百科(wiki2019zh)数据集在构建过程中面临了多方面的挑战。首先，中文语料的获取和处理相对复杂，尤其是在确保数据的质量和多样性方面。其次，数据集的构建需要处理大量的非结构化文本，并确保其格式的统一性和可扩展性。此外，数据集的更新和维护也是一个持续的挑战，尤其是在面对不断变化的语言使用和新兴领域的需求时。最后，如何有效地利用这些数据进行模型训练和评估，尤其是在多任务学习和跨领域应用中，仍然是一个亟待解决的问题。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在中文自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其结构化的词条数据，包含丰富的语义信息，能够为模型提供高质量的中文语料支持。通过该数据集，研究人员可以训练出具有强大语义理解能力的模型，进而应用于文本分类、信息检索、知识问答等多种任务。

解决学术问题

该数据集有效解决了中文自然语言处理领域中的语料稀缺问题。传统的中文语料往往存在数据量不足、质量参差不齐或更新滞后等问题，而维基百科(wiki2019zh)提供了超过100万个结构良好的中文词条，覆盖广泛的主题领域。这不仅为研究者提供了高质量的语料资源，还推动了中文预训练模型的发展，显著提升了模型在中文任务中的表现。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集被广泛用于构建智能问答系统和知识图谱。例如，基于该数据集训练的模型可以用于自动生成百科类问题的答案，或为搜索引擎提供更精准的语义理解能力。此外，该数据集还被用于教育领域，支持智能教学系统的开发，帮助学生快速获取相关知识。

数据集最近研究