维基百科json版(wiki2019zh)

github2019-04-04 更新2024-05-31 收录

下载链接：

https://github.com/naturespeak/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.

创建时间：

2019-04-04

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)，中英文句子对

数据集内容

维基百科(wiki2019zh)
- 包含100万个结构良好的中文词条
- 数据结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
新闻语料(news2016zh)
- 包含250万篇新闻，含关键词、描述
- 数据结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
百科问答(baike2018qa)
- 包含150万个带问题类型的问答
- 数据结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
社区问答json版(webtext2019zh)
- 包含410万个高质量社区问答
- 数据结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
翻译语料(translation2019zh)
- 包含520万个中英文平行语料
- 数据结构：{"english": <english>, "chinese": <chinese>}

数据集用途

通用中文语料，用于训练词向量或预训练的语料
构建知识问答、标题生成模型、关键词生成模型等
训练话题预测模型、社区问答(cQA)系统
用于中英文翻译系统训练

数据集贡献

贡献中文语料，请发送邮件至nlp_chinese_corpus@163.com
贡献者将根据语料的质量和量级获得感谢，包括列出贡献者名单及实物奖励

搜集汇总

数据集介绍

构建方式

维基百科json版(wiki2019zh)数据集的构建，是通过从维基百科抓取中文词条，并转化为json格式进行存储。该数据集包含104万个词条，每个词条包括标题和正文，并以{'id':<id>,'url':<url>,'title':<title>,'text':<text>}的结构组织，其中title是词条的标题，text是正文，通过' '进行换行分隔。

特点

该数据集的特点在于其结构良好的中文词条，覆盖广泛的主题，适合作为通用中文语料进行预训练或构建词向量。同时，由于其来源为维基百科，具有一定的知识性和权威性，可用于构建知识问答系统。数据集经过精心处理，以json格式存储，便于读取和处理。

使用方法

使用该数据集时，用户可以直接下载并解压json文件，利用其中的词条进行模型训练或语料分析。对于构建词向量或预训练模型，可以抽取中文正文内容进行训练；对于构建知识问答系统，可以利用标题和正文内容设计问答对。此外，该数据集也适用于文本分类、信息抽取等自然语言处理任务。

背景与挑战

背景概述

维基百科json版(wiki2019zh)数据集，是在2019年由nlp_chinese_corpus项目提供的，旨在为中文自然语言处理领域发展贡献力量。该数据集包含了100万个结构良好的中文词条，每个词条由标题和正文组成，通过' '换行分隔。该数据集的创建，解决了中文自然语言处理领域缺乏大规模、高质量语料的问题，对相关研究产生了重要影响。

当前挑战

在构建维基百科json版数据集的过程中，主要面临的挑战包括：1）如何从大规模文本中提取高质量的中文词条，确保数据的准确性和可用性；2）如何处理和存储大规模的中文数据，保证数据集的可访问性和效率；3）如何确保数据集的多样性和覆盖面，以适应不同的自然语言处理任务。

常用场景

经典使用场景

维基百科json版(wiki2019zh)作为大规模的中文语料库，其经典使用场景主要在于为中文自然语言处理任务提供高质量的训练数据。该数据集包含丰富的中文词条信息，适用于构建和预训练语言模型，进行词向量训练，以及用于知识问答和文本相似度计算等任务。

衍生相关工作

基于wiki2019zh数据集，研究者可以开展多项衍生工作，如构建领域特定的知识库、开发智能问答系统、进行语言模型的效果评估等，进一步推动了中文自然语言处理技术的发展和应用。

数据集最近研究