维基百科(wiki2019zh)

github2019-03-05 更新2024-05-31 收录

下载链接：

https://github.com/huhuigou/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

可以做为通用中文语料，做预训练的语料或构建词向量，也可以用于构建知识问答。

This dataset can serve as a general-purpose Chinese corpus, suitable for pre-training materials or constructing word vectors, and can also be utilized for building knowledge-based question answering systems.

创建时间：

2019-02-16

原始信息汇总

数据集概述

维基百科(wiki2019zh)

规模: 包含1,043,224个词条，原始文件大小1.6G，压缩文件519M。
更新时间: 2019年2月7日。
结构: 数据格式为JSON，包含字段：id, url, title, text。
用途: 可用于预训练语料、构建词向量或知识问答系统。

新闻语料(news2016zh)

规模: 包含250万篇新闻，原始数据9G，压缩文件3.6G，内容跨度为2014-2016年。
结构: 数据格式为JSON，包含字段：news_id, title, content, source, time, keywords, desc。
用途: 可用于训练词向量、预训练语料、标题生成模型或关键词生成模型。

百科类问答(baike2018qa)

规模: 包含150万个问答，原始数据1G多，压缩文件663M，数据更新时间为2018年。
结构: 数据格式为JSON，包含字段：qid, category, title, desc, answer。
用途: 可用于训练词向量、预训练语料或构建百科类问答系统。

翻译语料(translation2019zh)

规模: 包含520万个中英文平行语料，原始数据1.1G，压缩文件596M。
结构: 数据格式为JSON，包含字段：english, chinese。
用途: 可用于训练中英文翻译系统，或作为通用中文语料用于词向量训练和预训练。

数据集贡献

联系方式: 通过邮箱nlp_chinese_corpus@163.com贡献中文语料。
贡献激励: 根据语料质量和量级，选出前20名贡献者，提供键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品作为感谢。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建，是通过从维基百科抓取104万个词条，每个词条包含标题和正文，并以JSON格式存储。构建过程中，对数据进行了去重和清洗，确保了数据的质量和一致性。

使用方法

使用该数据集时，用户可以直接下载并解压得到JSON文件，之后可以利用相关处理工具提取出所需的词条信息。适用于词向量训练、知识问答构建、句子相似性任务等多种场景，用户可以根据具体需求进行相应的预处理和模型训练。

背景与挑战

背景概述

维基百科（wiki2019zh）数据集是在2019年2月7日更新的，包含了1,043,224个词条，是中文自然语言处理领域的重要资源。该数据集由nlp_chinese_corpus项目提供，旨在为中文自然语言处理研究贡献大量的语料。此数据集的构建，是为了解决当时中文语料获取困难的问题，特别是对于希望训练中文词向量的研究人员和学生。该数据集的主要研究人员或机构不详，但它的影响力在中文自然语言处理领域是显著的，为研究者提供了丰富的语料资源，推动了相关研究的进展。

当前挑战

在构建维基百科数据集的过程中，研究人员面临了多个挑战。首先，获取大量的中文语料并非易事，需要克服版权和获取渠道的问题。其次，语料的处理和清洗也是一项艰巨的任务，包括去除重复内容、处理乱码和纠正错误等。此外，数据集的维护和更新也是持续的挑战，需要确保语料的时效性和准确性。在研究领域，如何有效地利用这些语料来训练模型、提高模型的性能，以及如何处理数据集中的噪声和偏差，都是当前和未来的挑战。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集作为中文自然语言处理领域的重要资源，其经典使用场景在于构建预训练语言模型和词向量。通过该数据集，研究者能够训练出在语义理解和文本生成等方面表现卓越的模型，进而提升诸如问答系统、机器翻译等自然语言处理任务的效果。

解决学术问题

该数据集解决了中文自然语言处理领域缺乏大规模高质量语料的问题，为学术研究提供了丰富的文本资源。它使得研究者能够基于大规模语料进行深度学习模型的训练，从而解决诸如词义消歧、文本分类、情感分析等学术难题，推动相关研究的进展。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集可用于改善搜索引擎的语义理解能力，优化推荐系统的内容相关性，以及提升智能问答系统的准确性和响应速度。此外，该数据集也为中文内容审核和自动摘要等应用提供了强有力的支撑。

数据集最近研究