维基百科(wiki2019zh)

github2019-03-03 更新2024-05-31 收录

下载链接：

https://github.com/huanghao128/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。数据集结构清晰，每个词条包含id、url、title和text等信息。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The dataset is clearly organized, with each entry containing information such as id, url, title, and text.

创建时间：

2019-03-03

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)

数据集内容

维基百科(wiki2019zh)
- 包含100万个结构良好的中文词条
- 数据结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 包含250万篇新闻，含关键词、描述
- 数据结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 包含150万个带问题类型的问答
- 数据结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 包含410万个高质量社区问答
- 数据结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 包含520万个中英文平行语料
- 数据结构：{"english": <english>, "chinese": <chinese>}

数据集用途

通用中文语料，用于训练词向量或预训练语料
构建知识问答、标题生成、关键词生成模型
训练话题预测模型、社区问答(cQA)系统
中英文翻译系统训练

数据集贡献

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com
贡献者将根据语料的质量和量级获得感谢，包括列出贡献者名单及赠送物品。

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建，是从维基百科的中文词条中筛选出100万个结构良好的词条，经过处理，形成了包括标题和正文的JSON格式数据。每个词条都包含唯一的标识符、URL链接、标题和正文内容，其中正文内容通过' '进行分段。

使用方法

用户可以通过下载链接获取数据集，并直接使用JSON格式的数据。每个词条都是一个JSON对象，可以直接被解析和使用。适用于构建语言模型、进行文本分类、问答系统训练等多种场景。用户需要根据自己的需求，对数据集进行相应的预处理和格式化。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集是在2019年由nlp_chinese_corpus项目提供的，旨在为中文自然语言处理领域发展贡献力量。该数据集包含了100万个结构良好的中文词条，是中文词条领域的重要资源。其创建目的是为了解决中文语料获取困难的问题，由ReactiveCJ等贡献者共同构建，并持续更新扩充。数据集的发布对于中文NLP研究具有重要意义，极大地推动了相关领域的发展。

当前挑战

在构建维基百科(wiki2019zh)数据集的过程中，研究人员面临了多个挑战。首先，确保词条的质量和准确性是一个关键挑战，因为这直接关系到后续应用的可靠性。其次，数据集的规模和多样性也提出了挑战，需要处理大量的数据并进行有效的数据清洗和预处理。此外，如何合理地结构化数据，以便于后续的查询和应用，也是构建过程中的一大挑战。在研究领域，如何利用这个数据集进行有效的知识问答和词向量训练等任务，提高模型的性能和泛化能力，也是当前面临的挑战之一。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集作为中文自然语言处理领域的重要资源，其经典使用场景主要在于预训练语言模型、构建词向量以及用于知识问答系统的训练。该数据集凭借其规模宏大、结构良好的特点，为研究者提供了丰富的语言学习和知识挖掘的基础。

解决学术问题

该数据集解决了中文NLP领域中缺乏大规模高质量语料的问题，为词向量训练、语言模型预训练、知识问答等学术研究任务提供了强有力的数据支撑。其高质量的语料也使得相关研究成果在实际应用中更具可靠性和准确性。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集被广泛应用于搜索引擎优化、智能客服系统构建、内容推荐系统等领域。它为这些应用提供了丰富的语义信息和知识基础，显著提升了系统的智能处理能力和用户体验。

数据集最近研究