维基百科(wiki2019zh)

github2019-10-05 更新2024-05-31 收录

下载链接：

https://github.com/CarryChang/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。数据结构包括id、url、title和text，其中title是词条的标题，text是正文。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question-answering systems. The data structure includes id, url, title, and text, where the title represents the heading of the entry and the text contains the main body.

创建时间：

2019-09-26

原始信息汇总

数据集概述

数据集目标

本数据集旨在为中文自然语言处理领域提供大规模、高质量的中文语料，以支持预训练、词向量训练及其他NLP任务。

数据集内容

维基百科(wiki2019zh)
- 规模: 104万个词条
- 格式: JSON
- 结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
- 用途: 通用中文语料，预训练语料，构建词向量，知识问答
新闻语料(news2016zh)
- 规模: 250万篇新闻
- 格式: JSON
- 结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
- 用途: 通用中文语料，训练词向量，预训练语料，标题生成，关键词生成
百科问答(baike2018qa)
- 规模: 150万个问答
- 格式: JSON
- 结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
- 用途: 通用中文语料，训练词向量，预训练语料，百科类问答
社区问答json版(webtext2019zh)
- 规模: 410万个问答
- 格式: JSON
- 结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
- 用途: 通用中文语料，大模型预训练，话题预测，社区问答系统，答案评分系统
翻译语料(translation2019zh)
- 规模: 520万个中英文平行语料
- 格式: JSON
- 结构: {"english": <english>, "chinese": <chinese>}
- 用途: 中英文翻译系统，通用中文语料，训练词向量，预训练语料

数据集更新

增加高质量社区问答json版(webtext2019zh)
添加520万翻译语料(translation2019zh)

数据集目标

一期目标: 10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
二期目标: 30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

贡献方式

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com。贡献者将根据贡献的质量和量级获得感谢，包括列出贡献者名单及实物奖励。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建方式是通过从维基百科抓取中文词条，经过筛选和清洗，最终形成了包含100万个结构良好的中文词条的语料库。每个词条都包含标题和正文，并以json格式存储，便于后续处理和使用。

特点

该数据集的特点在于其规模较大，包含了100万个中文词条，覆盖了广泛的主题和知识点。数据以json格式组织，便于快速读取和解析。此外，数据集更新及时，能够反映当前维基百科的内容状态。

使用方法

使用该数据集时，用户可以直接从提供的链接下载压缩后的文件，并解压以获取json格式的数据。用户可以根据自己的需要，利用这些数据进行词向量训练、预训练、构建知识问答系统等自然语言处理任务。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是一款致力于推动中文自然语言处理领域发展的资源，由Brightmart团队于2019年推出。该数据集包含了100万个结构良好的中文词条，旨在为研究人员提供高质量的语料，以促进词向量训练、预训练语料构建以及知识问答等任务的开展。其创建不仅缓解了中文自然语言处理领域在高质量语料获取上的难题，也为相关研究提供了强有力的数据支撑。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，研究者面临着多方面的挑战。首先，如何从庞大的维基百科全量数据中筛选出结构良好、适合中文自然语言处理的词条是一个挑战。其次，保证数据的质量和准确性，去除噪声和错误信息，确保数据集的可用性和可靠性，也是构建过程中的一个难点。此外，数据集的大规模特性给存储、处理和分发带来了额外的挑战。在研究领域问题上，如何利用该数据集有效提升词向量的质量、构建精准的知识问答系统，以及如何处理数据集中的歧义和不确定性，都是当前面临的挑战。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集广泛应用于中文自然语言处理领域，其经典使用场景包括作为预训练语料库构建词向量模型，以及用于训练各种语言模型如RoBERTa中文版等。该数据集凭借其结构良好的100万个中文词条，为研究者和开发者提供了丰富的资源，使其能够进行高质量的中文文本处理任务。

衍生相关工作

基于维基百科(wiki2019zh)数据集，已衍生出多项相关工作，如构建大规模的预训练语言模型、用于知识图谱构建的百科问答数据集、以及支持中英文翻译系统的平行语料库等，这些工作进一步扩展了该数据集的应用范围，并在学术界和工业界产生了广泛影响。

数据集最近研究