维基百科(wiki2019zh)

github2019-07-10 更新2024-05-31 收录

下载链接：

https://github.com/Burton-David/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.

创建时间：

2019-07-10

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 100万个结构良好的中文词条
用途: 通用中文语料，预训练语料，构建词向量，知识问答
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}

2. 新闻语料(news2016zh)

规模: 250万篇新闻，含关键词、描述
用途: 通用中文语料，训练词向量，预训练语料，标题生成，关键词生成
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}

3. 百科问答(baike2018qa)

规模: 150万个带问题类型的问答
用途: 通用中文语料，训练词向量，预训练语料，百科类问答
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

4. 社区问答json版(webtext2019zh)

规模: 410万个高质量社区问答
用途: 构建百科类问答，话题预测，社区问答系统，通用中文语料，大模型预训练，答案评分系统
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
用途: 中英文翻译系统，通用中文语料，训练词向量，预训练语料
结构: {"english": <english>, "chinese": <chinese>}

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)
添加520万翻译语料(translation2019zh)

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建是通过从维基百科抓取中文词条，经过筛选和清洗，形成了包含100万个结构良好、具有明确标题和正文内容的词条。每个词条以JSON格式存储，便于处理和访问。

特点

该数据集的特点在于其规模较大，更新时间距今较近，且数据质量较高。它为中文自然语言处理领域提供了丰富的语料资源，可用于预训练模型、构建词向量、知识问答等任务。数据集的构建注重标题与正文的清晰结构，便于下游任务的开展。

使用方法

用户可以通过官方提供的下载链接获取数据集压缩文件，解压后得到JSON格式的数据。可以直接利用这些数据进行模型训练或作为特征工程的一部分。针对不同的应用场景，用户可能需要对数据进行预处理，如清洗、分词等，以适应特定模型的要求。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集，创建于2019年，是由NLPCC2019会议提供的中文自然语言处理领域的大型语料库。该数据集包含了100万个结构良好的中文词条，旨在为中文自然语言处理研究提供高质量的语料支持。该数据集的构建，主要研究人员为Liang Xu，并由brightmart组织负责维护。该数据集的发布对中文信息处理领域产生了重要影响，为相关研究提供了丰富的语料资源。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，主要面临的挑战包括：1）如何从庞大的维基百科全文中提取出结构良好、有价值的中文学条目；2）如何确保数据的准确性和高质量，满足中文自然语言处理的研究需求；3）数据集构建过程中的数据处理和存储问题，以及如何高效地提供数据下载服务。此外，数据集在解决领域问题如知识问答、词向量训练等方面也面临着如何有效利用和优化数据集的挑战。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集作为大规模的中文语料库，其经典使用场景主要在于为自然语言处理任务提供高质量的预训练语料。该数据集包含100万个结构良好的中文词条，常被用于训练词向量模型，构建知识问答系统，以及作为深度学习模型的预训练数据，从而提高模型对中文语言的理解能力。

解决学术问题

该数据集解决了中文自然语言处理领域缺乏大规模、高质量标注语料的问题，为学术研究提供了丰富的文本资源。通过维基百科数据集，研究者能够训练出更加精准的语言模型，推动了对语言规律的深入理解，也为构建知识图谱、信息抽取等任务提供了基础数据支撑。

衍生相关工作

维基百科(wiki2019zh)数据集衍生的相关工作包括构建基于该数据集的词向量模型、知识图谱、信息检索系统等。此外，研究者还基于该数据集开展了文本挖掘、知识问答等方向的探索，推动了中文自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成