维基百科(wiki2019zh)

github2019-11-05 更新2024-05-31 收录

下载链接：

https://github.com/lbda1/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用作预训练的语料或构建词向量，也可用于构建知识问答。数据集结构包括id、url、title和text，其中title是词条的标题，text是正文。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question-answering systems. The dataset structure includes id, url, title, and text, where the title represents the heading of the entry and the text contains the main body.

创建时间：

2019-11-05

原始信息汇总

数据集概述

1. 维基百科(wiki2019zh)

规模: 104万个词条
原始文件大小: 1.6G
压缩文件大小: 519M
数据更新时间: 2019.2.7
下载链接: Google Drive, 百度云盘
结构: {"id":<id>,"url":<url>,"title":<title>,"text":<text>}
用途: 通用中文语料，预训练语料，构建词向量，知识问答

2. 新闻语料(news2016zh)

规模: 250万篇新闻
原始数据大小: 9G
压缩文件大小: 3.6G
新闻内容跨度: 2014-2016年
下载链接: Google Drive
结构: {news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
用途: 通用中文语料，训练词向量，预训练语料，标题生成模型，关键词生成模型

3. 百科问答(baike2018qa)

规模: 150万个问答
原始数据大小: 1G多
压缩文件大小: 663M
数据更新时间: 2018年
下载链接: Google Drive, 百度云盘
结构: {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
用途: 通用中文语料，训练词向量，预训练语料，百科类问答

4. 社区问答json版(webtext2019zh)

规模: 410万个问答
过滤后数据大小: 3.7G
压缩文件大小: 1.7G
数据跨度: 2015-2016年
下载链接: Google Drive
结构: {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
用途: 构建百科类问答，话题预测模型，社区问答系统，通用中文语料，大模型预训练语料，词向量训练

5. 翻译语料(translation2019zh)

规模: 520万个中英文平行语料
原始数据大小: 1.1G
压缩文件大小: 596M
下载链接: Google Drive
结构: {"english": <english>, "chinese": <chinese>}
用途: 训练中英文翻译系统，通用中文语料，训练词向量，预训练语料

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建，是通过从维基百科抓取中文词条，经过筛选和清洗，最终形成包含100万个结构良好的中文词条的语料库。每个词条由标题和正文组成，并通过JSON格式进行存储，便于后续处理和使用。

特点

该数据集的特点在于其规模宏大，覆盖面广，包含了丰富的中文词汇和表达。数据集经过精心清洗和去重，保证了数据的质量和实用性。此外，其结构化的存储方式，便于进行自动化处理和批量分析。

使用方法

使用该数据集时，用户可以直接下载并解压获得JSON格式的数据，然后可以利用自然语言处理工具进行分词、词向量训练等预处理操作。同时，该数据集也适用于构建知识问答系统、进行文本生成等下游任务。用户在使用时需遵守相应的数据使用规范和版权要求。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集，创建于2019年，是由Bright Xu等研究者或机构提供的中文自然语言处理领域的大型语料库。该数据集包含了100万个结构良好的中文词条，旨在为中文自然语言处理研究提供丰富的语料资源。其核心研究问题是为NLP领域提供大规模、高质量的中文语料，以促进中文语言模型和应用的研发。维基百科数据集对相关领域的影响力体现在为研究者提供了宝贵的训练和测试数据，是构建中文语言模型不可或缺的资源之一。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，主要面临的挑战包括：1）确保词条的质量和结构的良好性，这需要在数据清洗和预处理阶段进行大量的工作；2）大规模数据集的存储和传输问题，如何高效地存储和传输上百万级别的数据集，保证数据的完整性和可用性；3）语料的多样性和覆盖面的挑战，需要保证语料库能够覆盖中文互联网上的多样化内容，以适应不同的NLP任务需求。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集是中文自然语言处理领域的重要资源，其经典使用场景主要集中于训练词向量、构建预训练模型以及用于知识问答系统。该数据集提供了100万个结构良好的中文词条，为研究人员提供了丰富的语言素材，以便进行深度学习模型的训练和语言特征的分析。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集可用于搜索引擎优化、机器翻译、文本摘要、智能问答等场景。例如，搜索引擎可以利用该数据集提高对中文查询的理解，机器翻译系统可以借此提升翻译质量，智能问答系统则可以通过学习该数据集来增强回答的准确性。

衍生相关工作

基于维基百科(wiki2019zh)数据集，衍生出了众多相关研究工作。例如，有研究者利用该数据集训练了中文词向量模型，进一步应用于文本分类、情感分析等任务。此外，也有研究者使用该数据集构建了知识问答系统，为用户提供准确的信息检索服务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集