维基百科(wiki2019zh)

github2019-08-29 更新2024-05-31 收录

下载链接：

https://github.com/XuemingQiu/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。数据结构包括id、url、title、text等字段，其中title是词条的标题，text是正文。

This dataset comprises 1.04 million entries, suitable for pre-training corpora or constructing word vectors, and can also be utilized for building knowledge-based question-answering systems. The data structure includes fields such as id, url, title, and text, where 'title' represents the heading of the entry and 'text' contains the main body content.

创建时间：

2019-08-29

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)，中英文句子对

数据集内容

维基百科(wiki2019zh)
- 数量：100万个结构良好的中文词条
- 用途：通用中文语料，预训练语料，构建词向量，知识问答
- 结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 数量：250万篇新闻，含关键词、描述
- 用途：通用中文语料，训练词向量，预训练语料，标题生成，关键词生成
- 结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 数量：150万个带问题类型的问答
- 用途：通用中文语料，训练词向量，预训练语料，百科类问答
- 结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 数量：410万个高质量社区问答
- 用途：构建百科类问答，话题预测，社区问答系统，大模型预训练，词向量训练
- 结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 数量：520万个中英文平行语料
- 用途：训练中英文翻译系统，通用中文语料，词向量训练
- 结构：{"english": <english>, "chinese": <chinese>}

数据集贡献

贡献方式：发送邮件至nlp_chinese_corpus@163.com
贡献奖励：根据语料质量和量级，选出前20个贡献者，寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于中文维基百科的公开数据，经过精心筛选和结构化处理，形成了包含104万个词条的语料库。每个词条均以JSON格式存储，包含词条的唯一标识符、URL、标题及正文内容。正文通过换行符进行段落分隔，确保了数据的可读性和易用性。数据集的构建过程注重数据的完整性和质量，旨在为中文自然语言处理研究提供高质量的语料支持。

使用方法

使用维基百科(wiki2019zh)数据集时，研究人员可以通过下载提供的压缩文件获取数据。数据集以JSON格式存储，用户可以使用常见的编程语言（如Python）进行数据解析和处理。该数据集适用于多种自然语言处理任务，包括但不限于预训练语言模型、词向量构建和知识问答系统的开发。用户可以根据具体需求，提取词条的标题和正文内容，进行进一步的分析和应用。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是由brightmart团队于2019年创建的一个大规模中文自然语言处理语料库，旨在为中文NLP领域的研究提供高质量的语料支持。该数据集包含了104万个结构良好的中文维基百科词条，涵盖了广泛的主题领域。该数据集的创建背景源于当时中文语料资源的匮乏，尤其是在大规模、高质量语料方面，研究者难以获取适合训练现代NLP模型的语料。wiki2019zh的推出填补了这一空白，为中文词向量构建、预训练模型开发以及知识问答系统的构建提供了重要基础。该数据集在中文NLP领域的影响力显著，推动了中文语言模型的快速发展。

当前挑战

维基百科(wiki2019zh)数据集在构建和应用过程中面临多重挑战。首先，中文自然语言处理领域长期缺乏大规模、高质量的语料资源，尤其是在2019年之前，现有的语料往往规模较小或数据过于陈旧，难以满足现代深度学习模型的需求。其次，数据集的构建过程中，如何从维基百科的原始数据中提取结构化信息并确保数据的完整性和一致性是一个技术难点。此外，中文的复杂性和多样性，如多义词、同义词以及语法结构的灵活性，为语料的预处理和模型训练带来了额外的挑战。最后，如何确保数据的时效性和持续更新，以适应快速发展的NLP技术需求，也是该数据集面临的重要问题。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在中文自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其结构化的词条内容为研究者提供了丰富的文本数据，适用于多种NLP任务，如文本分类、信息检索和知识问答系统的开发。

解决学术问题

该数据集解决了中文NLP研究中语料稀缺和质量不一的问题。通过提供大量高质量、结构化的中文文本，研究者能够更有效地训练和评估模型，推动了中文语言理解技术的发展，特别是在机器翻译、文本生成和语义分析等领域。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集被用于开发智能问答系统、搜索引擎优化和内容推荐系统。其丰富的语料库支持了从基础研究到商业产品的广泛需求，特别是在需要大量中文文本处理的应用场景中。

数据集最近研究