维基百科(wiki2019zh)

github2020-03-17 更新2024-05-31 收录

下载链接：

https://github.com/mayite/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

维基百科json版包含104万个结构良好的中文词条，可用于预训练语料或构建词向量，也可用于构建知识问答。数据结构包括id、url、title和text，其中title是词条标题，text是正文。

The Wikipedia JSON edition encompasses 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The data structure includes id, url, title, and text, where the title represents the entry's heading and the text constitutes the main body.

创建时间：

2020-03-16

原始信息汇总

数据集概述

本数据集专注于中文自然语言处理领域，提供了多种类型的中文语料，旨在支持中文NLP的研究与发展。数据集包括以下几个主要部分：

1. 维基百科(wiki2019zh)

规模：104万个词条
格式：JSON
结构：每个词条包含id, url, title, text等字段
用途：预训练语料，构建词向量，知识问答系统

2. 新闻语料(news2016zh)

规模：250万篇新闻
格式：JSON
结构：每篇新闻包含news_id, title, content, source, time, keywords, desc等字段
用途：预训练语料，词向量训练，标题生成，关键词生成

3. 百科问答(baike2018qa)

规模：150万个问答
格式：JSON
结构：每个问答包含qid, category, title, desc, answer等字段
用途：预训练语料，构建百科问答系统，句子表示模型训练

4. 社区问答json版(webtext2019zh)

规模：410万个问答
格式：JSON
结构：每个问答包含qid, title, desc, topic, star, content, answer_id, answerer_tags等字段
用途：构建百科问答，话题预测，社区问答系统，词向量训练

5. 翻译语料(translation2019zh)

规模：520万个中英文平行语料
格式：JSON
结构：每个语料对包含english, chinese字段
用途：中英文翻译系统训练，词向量训练

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，可用于训练超大规模NLP模型
添加520万翻译语料(translation2019zh)

贡献方式

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。贡献者将根据贡献的语料质量和量级获得感谢，包括列名贡献者名单及实物奖励。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建，是通过从维基百科抓取中文词条，经过筛选和清洗，最终形成了包含100万个结构良好的中文词条的语料库。每个词条包含标题和正文，并以JSON格式存储，便于后续处理和使用。

特点

该数据集的特点在于其规模较大，包含了100万个中文词条，覆盖了广泛的知识领域。数据以JSON格式组织，方便快捷地支持中文自然语言处理任务，如词向量训练、预训练语料构建等。此外，数据集更新及时，保证了语料的时效性和质量。

使用方法

使用该数据集时，用户可以直接下载并解压相应的文件，然后利用JSON格式读取数据。数据集适用于多种NLP任务，如词向量训练、文本分类、信息抽取等。用户可以根据具体任务需求，对数据进行进一步的处理和格式化。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是一款规模庞大的中文自然语言处理语料库，由Bright Xu于2019年推出。该数据集包含了100万个结构良好的中文词条，旨在为中文NLP领域提供高质量的训练和测试数据。它的构建旨在解决中文信息获取和处理的难题，为研究人员、开发者和学生提供丰富的语料资源，从而推动中文自然语言处理技术的发展。该数据集的发布对相关领域产生了重要影响，成为了中文NLP领域的重要基准数据集之一。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，主要面临的挑战包括如何从大规模文本中提取和整理出高质量的中文词条，以及如何确保数据的多样性和准确性。此外，数据集构建完成后，如何有效利用这些数据进行模型训练和评估，以及如何处理数据中的噪声和错误，都是研究者和开发者需要解决的问题。在领域问题上，该数据集主要用于训练和评估语言模型，面临着如何提高模型对中文语言特点的理解和生成能力的挑战。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集是中文自然语言处理领域的重要资源，其经典使用场景主要包括预训练语言模型、构建词向量以及作为知识问答系统的训练数据。该数据集以其规模庞大、内容丰富而广受欢迎，为研究人员提供了深入理解中文语言特性和构建高效模型的坚实基础。

解决学术问题

该数据集解决了中文NLP研究中缺乏大规模、高质量语料的问题，为词向量训练、语言模型预训练、百科问答构建等学术研究任务提供了可靠的数据支持。它的出现显著提升了中文语言处理任务的性能，推动了相关研究的进展。

衍生相关工作

基于维基百科(wiki2019zh)数据集，研究者们衍生出了一系列相关工作，如构建了更高效的预训练模型、开发了新型语言理解评测基准、进行了大规模知识图谱的构建等，这些工作进一步拓展了数据集的应用范围，推动了中文自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成