维基百科(wiki2019zh)

github2019-08-14 更新2024-05-31 收录

下载链接：

https://github.com/WuWenjie1012/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。数据集结构包括id、url、title和text，其中title是词条标题，text是正文。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question answering systems. The dataset structure includes fields for id, url, title, and text, where the title represents the entry heading and the text contains the main body content.

创建时间：

2019-04-29

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)

数据集内容

维基百科(wiki2019zh)
- 数量：100万个结构良好的中文词条
- 用途：通用中文语料，预训练语料，构建词向量，知识问答
- 结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 数量：250万篇新闻，含关键词、描述
- 用途：通用中文语料，训练词向量，预训练语料，标题生成，关键词生成
- 结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 数量：150万个带问题类型的问答
- 用途：通用中文语料，训练词向量，预训练语料，百科类问答
- 结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 数量：410万个高质量社区问答
- 用途：构建百科类问答，话题预测，社区问答系统，通用中文语料，大模型预训练
- 结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 数量：520万个中英文句子对
- 用途：训练中英文翻译系统，通用中文语料，训练词向量，预训练语料
- 结构：{"english": <english>, "chinese": <chinese>}

贡献语料

贡献方式：发送邮件至nlp_chinese_corpus@163.com
贡献奖励：根据语料质量和量级，选出前20个贡献者，寄送键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建，是通过从维基百科抓取中文词条，并对其进行结构化处理而成的。该数据集包含了104万个词条，每个词条由一个标题和正文组成，采用JSON格式存储，便于处理和使用。

特点

该数据集的特点在于其规模宏大，覆盖面广，包含了丰富的中文语言知识和信息。数据以结构化的JSON格式存储，易于程序化处理。此外，数据集经过质量筛选，保证了词条的质量和实用性。

使用方法

使用该数据集时，用户可以直接下载并解压得到JSON文件，然后利用相关编程语言和工具进行读取和处理。数据集适用于自然语言处理的各种任务，如词向量训练、预训练模型构建、知识问答系统训练等。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集，创建于2019年，是由NLPCC2019大会提供的中文自然语言处理领域的语料库。该数据集由100万个结构良好的中文词条构成，旨在为中文自然语言处理研究提供高质量的语料资源。主要研究人员为Liang Xu，该数据集对于推动中文自然语言处理领域的发展具有重要的意义。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，研究人员面临了多方面的挑战。首先，如何从大规模的原始数据中筛选出高质量的中文词条是一大挑战。其次，数据集的构建还需要考虑数据的多样性和平衡性，以确保数据集能够广泛地应用于不同的自然语言处理任务。此外，数据集的维护和更新也是一项长期而艰巨的任务，需要持续的技术支持和资源投入。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集是中文自然语言处理领域的重要资源，其经典使用场景在于为预训练语言模型提供丰富的语料基础。通过该数据集，研究者可以训练出能够理解中文语境的深度学习模型，进而应用于文本分类、信息检索、问答系统等多个NLP任务中。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集可用于提升机器翻译的准确性，优化搜索引擎的结果相关性，以及增强聊天机器人的交互能力等。它为各类中文处理应用提供了坚实的语料基础，推动了中文互联网服务的智能化进程。

衍生相关工作

基于维基百科(wiki2019zh)数据集，研究者们已开展了一系列相关工作，如构建大规模的中文词向量模型、开发高级的问答系统、以及进行文本生成等任务的研究。这些衍生工作进一步扩展了数据集的应用范围，促进了中文自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成