维基百科(wiki2019zh)

github2019-08-31 更新2024-05-31 收录

下载链接：

https://github.com/remind0/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练语料或构建词向量，也可用于构建知识问答。数据集结构清晰，包含id、url、title和text等字段。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The dataset is clearly structured, including fields such as id, url, title, and text.

创建时间：

2019-08-31

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)

主要数据集

维基百科(wiki2019zh)
- 包含100万个结构良好的中文词条
- 数据结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
- 用途：通用中文语料，预训练语料，构建知识问答
新闻语料(news2016zh)
- 包含250万篇新闻，含关键词、描述
- 数据结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
- 用途：通用中文语料，训练词向量，预训练语料，标题生成模型，关键词生成模型
百科问答(baike2018qa)
- 包含150万个带问题类型的问答
- 数据结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
- 用途：通用中文语料，训练词向量，预训练语料，百科类问答
社区问答json版(webtext2019zh)
- 包含410万个高质量社区问答
- 数据结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
- 用途：构建百科类问答，话题预测模型，社区问答系统，通用中文语料，大模型预训练语料
翻译语料(translation2019zh)
- 包含520万个中英文句子对
- 数据结构：{"english": <english>, "chinese": <chinese>}
- 用途：训练中英文翻译系统，通用中文语料，训练词向量，预训练语料

数据集贡献

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com
贡献者将根据贡献的质量和量级获得感谢，包括列出贡献者名单和赠送物品。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建，是通过从维基百科抓取中文词条，并清洗、去重、压缩而成的。该数据集包含了104万个词条，每个词条由标题和正文构成，以JSON格式存储，便于处理和使用。

使用方法

使用该数据集时，用户可以直接下载并解压，然后利用JSON格式读取数据。数据集适用于预训练语言模型、构建词向量、知识问答和文本生成等任务。用户可以根据具体需求，对数据集进行相应的预处理和后处理操作。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集，创建于2019年，是由NLPCC2019会议提供的大型中文语料库之一。该数据集由104万个结构良好的中文词条组成，旨在为中文自然语言处理领域的发展贡献力量。主要研究人员为Liang Xu，数据集的构建旨在解决中文信息获取的难题，为研究者提供大量高质量的中文语料。该数据集的影响力体现在为中文词向量训练、知识问答构建等领域提供了丰富的资源。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，主要面临的挑战包括如何从维基百科的原始数据中提取并整理出结构化的中文词条，以及如何确保词条的质量和准确性。此外，数据集在解决领域问题，如中文词向量训练、知识问答等方面，也面临挑战，包括如何提高模型的泛化能力，以及如何有效地利用类别信息来提升句子表示模型的质量。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集是一份包含100万个结构良好的中文词条的宝贵资源，其经典的使用场景主要集中于中文自然语言处理领域。学者和研究人员可以借助该数据集进行预训练，构建词向量模型，进而用于诸如文本分类、信息检索、机器翻译等多种NLP任务的基底模型。此外，维基百科的内容丰富性使其成为构建知识图谱、进行知识问答研究的重要素材。

解决学术问题

该数据集解决了中文NLP领域在高质量、大规模语料库获取方面的难题，为学术研究提供了丰富的语料支持。通过维基百科数据集，研究者可以训练出更为精确的语言模型，改善机器理解中文语言的能力，从而推动诸如语义理解、跨语言信息检索等学术问题的研究。

实际应用

在实用层面，维基百科数据集可用于搜索引擎优化、智能客服系统构建、内容推荐系统等领域。它能够帮助企业和开发者提升产品对中文语言的理解能力，进而提高服务的智能化水平，满足用户在信息检索、互动交流等方面的需求。

数据集最近研究