维基百科(wiki2019zh)

github2024-02-29 更新2024-05-31 收录

下载链接：

https://github.com/sunyilgdx/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.

创建时间：

2019-07-27

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)

数据集内容

维基百科(wiki2019zh)
- 数量：100万个结构良好的中文词条
- 用途：通用中文语料，预训练语料，构建词向量，知识问答
- 结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 数量：250万篇新闻，含关键词、描述
- 用途：通用中文语料，训练词向量，预训练语料，标题生成模型，关键词生成模型
- 结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 数量：150万个带问题类型的问答
- 用途：通用中文语料，训练词向量，预训练语料，百科类问答
- 结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 数量：410万个高质量社区问答
- 用途：构建百科类问答，话题预测模型，社区问答系统，通用中文语料，大模型预训练
- 结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 数量：520万个中英文句子对
- 用途：训练中英文翻译系统，通用中文语料，训练词向量
- 结构：{"english": <english>, "chinese": <chinese>}

数据集贡献

贡献方式：发送邮件至nlp_chinese_corpus@163.com
贡献奖励：根据语料质量和量级，选出前20个贡献者，提供键盘、鼠标、显示屏等物品以示感谢。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建基于2019年2月7日的中文维基百科词条，共计104万个结构良好的中文词条。数据以JSON格式存储，每个词条包含ID、URL、标题和正文信息。正文通过换行符进行分段，确保数据的结构化和易读性。数据集的原始文件大小为1.6G，压缩后为519M，便于下载和使用。

使用方法

维基百科(wiki2019zh)数据集可用于多种自然语言处理任务，如预训练中文语言模型、构建词向量或知识问答系统。用户可以通过下载压缩文件获取数据，并使用JSON解析工具进行数据处理。每个词条的标题和正文信息可直接用于模型训练或知识库构建。此外，数据集的URL信息还可用于进一步扩展数据来源或进行数据验证。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是中文自然语言处理领域的重要语料资源，由brightmart团队于2019年创建，旨在为中文NLP研究提供大规模、高质量的结构化文本数据。该数据集包含104万个中文维基百科词条，涵盖了广泛的学科和主题，为预训练语言模型、词向量构建以及知识问答系统等任务提供了丰富的语料支持。其创建背景源于当时中文语料资源的匮乏，尤其是大规模、高质量语料的稀缺性，严重制约了中文NLP技术的发展。wiki2019zh的发布填补了这一空白，显著推动了中文NLP领域的研究与应用，尤其是在预训练模型和知识图谱构建方面发挥了重要作用。

当前挑战

维基百科(wiki2019zh)数据集在解决中文NLP领域问题的过程中面临多重挑战。首先，中文语料的多样性和复杂性对数据清洗和结构化处理提出了高要求，尤其是在去除噪声、统一格式以及确保数据质量方面。其次，构建大规模语料库需要处理海量数据，这对存储、计算资源和数据处理效率提出了严峻考验。此外，维基百科内容的动态更新特性使得数据集的时效性难以保证，如何在保持数据规模的同时实现实时更新成为一大难题。最后，数据集的广泛应用场景，如预训练模型和知识问答系统，对语料的覆盖范围、多样性和准确性提出了更高要求，这进一步增加了数据构建和优化的难度。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集在中文自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其包含的100万个结构良好的中文词条，涵盖了丰富的知识领域，为研究者提供了高质量的通用中文语料。通过该数据集，研究者能够训练出更加精准的语言模型，提升文本生成、文本分类等任务的性能。

解决学术问题

该数据集解决了中文自然语言处理领域中的语料稀缺问题。在2019年之前，获取大规模、高质量的中文语料极为困难，研究者往往面临数据量不足或数据陈旧的问题。维基百科(wiki2019zh)的推出，为中文NLP研究提供了丰富的语料资源，极大地推动了中文词向量、知识问答系统等领域的研究进展。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集被广泛用于构建知识问答系统、智能客服以及搜索引擎的优化。其结构化的词条信息能够帮助系统快速检索和生成准确的答案，提升用户体验。此外，该数据集还被用于训练中文语言模型，支持机器翻译、文本摘要等实际应用场景。

数据集最近研究