维基百科(wiki2019zh)

github2019-06-02 更新2024-05-31 收录

下载链接：

https://github.com/yscoder-github/nlp-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.

创建时间：

2019-03-24

原始信息汇总

数据集概述

数据集目标

一期目标：收集10个百万级中文语料和3个千万级中文语料（2019年5月1日）
二期目标：收集30个百万级中文语料、10个千万级中文语料和1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，包含410万个问答，适合训练超大规模NLP模型
添加520万翻译语料(translation2019zh)，包含中英文句子对

数据集内容

维基百科(wiki2019zh)
- 包含100万个结构良好的中文词条
- 数据结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 包含250万篇新闻，含关键词、描述
- 数据结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 包含150万个带问题类型的问答
- 数据结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 包含410万个高质量社区问答，适合训练超大模型
- 数据结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 包含520万个中英文平行语料
- 数据结构：{"english": <english>, "chinese": <chinese>}

数据集用途

可用于训练词向量、预训练语料、构建知识问答、标题生成、关键词生成等NLP任务
适用于构建百科类问答、社区问答系统、翻译系统等

数据集下载

维基百科：https://storage.googleapis.com/nlp_chinese_corpus/wiki_zh_2019.zip 或 https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA
新闻语料：https://pan.baidu.com/s/1LJeq1dkA0wmYd9ZGZw72Xg，密码: film
百科问答：https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA，密码:fu45
社区问答：https://storage.googleapis.com/nlp_chinese_corpus/webtext2019zh.zip
翻译语料：https://storage.googleapis.com/nlp_chinese_corpus/translation2019zh.zip

数据集贡献

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com
贡献者将根据语料质量和量级获得感谢，包括列名贡献者名单和赠送物品等

搜集汇总

数据集介绍

构建方式

维基百科(wiki2019zh)数据集的构建方式主要依托于维基百科的中文词条。通过对104万个词条的标题和正文进行提取，并以JSON格式存储，每个词条包含唯一的ID、标题、正文等字段，构建了一个结构化的中文语料库。

使用方法

使用该数据集时，用户可以直接下载压缩后的文件，并解压得到JSON格式的数据。可以通过编程语言如Python进行读取和处理，适用于自然语言处理任务，如预训练语言模型、构建词向量、知识问答等。

背景与挑战

背景概述

维基百科(wiki2019zh)数据集，创建于2019年，由致力于中文自然语言处理领域发展的团队负责构建。该数据集包含了100万个结构良好的中文词条，旨在为研究者和开发者提供高质量的中文语料资源，推动中文NLP技术的进步。主要研究人员或机构通过该数据集解决了中文信息处理中获取大量高质量语料的难题，对中文自然语言处理领域产生了重要影响。

当前挑战

在构建过程中，数据集面临了如何从维基百科原始数据中提取和清洗出结构良好、高质量的中文词条的挑战。此外，该数据集在解决领域问题，如用于构建词向量、预训练模型等方面，面临着如何确保数据质量和数据多样性的挑战。同时，对于词条的准确性和时效性保持也是该数据集持续更新的挑战之一。

常用场景

经典使用场景

维基百科(wiki2019zh)数据集是中文自然语言处理领域的重要资源，其经典使用场景在于为预训练语言模型提供丰富、结构化的文本素材。该数据集包含100万个结构良好的中文词条，通过这些词条，研究者能够训练出能够理解中文语言结构和含义的深度学习模型，为下游任务如文本分类、情感分析、信息提取等提供强有力的基础支撑。

解决学术问题

该数据集解决了中文自然语言处理中缺乏大规模、高质量标注数据的难题，有助于学术研究者进行词向量训练、知识图谱构建、语言模型预训练等研究。同时，它也为构建和评估中文问答系统、机器翻译系统等提供了基准数据集，推动了相关领域的学术研究进展。

实际应用

在实际应用中，维基百科(wiki2019zh)数据集可用于提升搜索引擎的语义理解能力，优化智能客服的回答质量，以及增强机器翻译的准确性和流畅性。企业和研究机构可以利用该数据集进行模型训练，以改善产品中的自然语言处理功能，提升用户体验。

数据集最近研究