维基百科(wiki2019zh)

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/brightmart/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.

创建时间：

2019-02-08

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条
数据大小: 原始文件1.6G，压缩文件519M
更新时间: 2019年2月7日
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 通用中文语料，预训练语料，构建词向量，知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
数据大小: 原始数据9G，压缩文件3.6G
时间跨度: 2014-2016年
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 通用中文语料，训练词向量，预训练语料，标题生成，关键词生成

3. 百科问答(baike2018qa)

规模: 150万个问答
数据大小: 原始数据1G多，压缩文件663M
更新时间: 2018年
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 通用中文语料，训练词向量，预训练语料，百科类问答

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
数据大小: 过滤后数据3.7G，压缩文件1.7G
时间跨度: 2015-2016年
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 构建百科类问答，话题预测，社区问答系统，通用中文语料，大模型预训练

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
数据大小: 原始数据1.1G，压缩文件596M
结构: {"english": <english>, "chinese": <chinese>}
用途: 训练中英文翻译系统，通用中文语料，训练词向量，预训练语料

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，可用于训练超大规模NLP模型
添加520万翻译语料(translation2019zh)

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于104万个结构良好的中文词条，这些词条从维基百科中提取，经过精心筛选和处理，确保了数据的高质量和一致性。数据集的构建过程中，每个词条被格式化为一个JSON对象，包含词条的唯一标识符、URL、标题和正文内容。通过这种方式，数据集不仅保留了原始信息，还便于后续的自然语言处理任务。

使用方法

使用维基百科(wiki2019zh)数据集时，用户可以通过下载提供的压缩文件，解压后即可获得包含所有词条的JSON格式数据。每个词条的结构清晰，便于直接导入到各种自然语言处理工具中进行进一步处理。例如，可以利用这些数据进行词向量训练、文本分类、知识图谱构建等任务。此外，数据集的高质量特性也使其成为评估和测试新模型性能的理想选择。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是由中国研究人员于2019年创建的，旨在为中文自然语言处理领域提供高质量的语料资源。该数据集包含了100万个结构良好的中文词条，涵盖了广泛的知识领域，为研究人员提供了丰富的文本数据。其主要研究人员或机构通过整合和处理维基百科的原始数据，构建了一个适用于多种NLP任务的语料库。该数据集的创建不仅填补了中文语料资源的空白，还推动了中文自然语言处理技术的发展，特别是在预训练模型和词向量构建方面。

当前挑战

尽管维基百科(wiki2019zh)数据集为中文NLP领域提供了宝贵的资源，但在其构建和应用过程中仍面临若干挑战。首先，数据集的构建需要处理大量的原始数据，确保数据的准确性和一致性，这是一个复杂且耗时的过程。其次，数据集的应用需要解决中文特有的语言处理问题，如分词、词义消歧等，这些问题的解决直接影响模型的性能。此外，数据集的更新和维护也是一个持续的挑战，需要不断扩充和优化数据内容，以适应NLP技术的快速发展。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在中文自然语言处理领域中，常被用于构建通用中文语料库。其100万个结构良好的中文词条，为预训练语言模型提供了丰富的语料资源。此外，该数据集还可用于训练词向量模型，通过词条的标题和正文内容，生成高质量的词嵌入表示。在知识问答系统中，维基百科的词条结构也为构建问答模型提供了基础数据支持。

解决学术问题

维基百科(wiki2019zh)数据集解决了中文自然语言处理领域中大规模高质量语料获取的难题。在2019年初，普通从业者、研究人员或学生难以获得极大量的中文语料，而该数据集的发布填补了这一空白。通过提供结构化的词条信息，该数据集不仅支持了词向量和预训练模型的训练，还为研究者提供了丰富的文本数据，推动了中文语言模型的研究进展。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集被广泛用于构建智能问答系统和知识图谱。通过解析维基百科的词条内容，系统能够回答用户提出的复杂问题，并提供详细的知识解释。此外，该数据集还支持了多种自然语言处理任务，如文本分类、命名实体识别和关系抽取等，为实际应用中的语言处理任务提供了强大的数据支持。

数据集最近研究