维基百科json版(wiki2019zh)

github2020-11-16 更新2024-05-31 收录

下载链接：

https://github.com/fantasyxxj/nlp_chinese_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含104万个结构良好的中文词条，可用于预训练的语料或构建词向量，也可用于构建知识问答。数据结构包括id、url、title和text，其中title是词条的标题，text是正文。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The data structure includes fields such as id, url, title, and text, where 'title' represents the heading of the entry and 'text' contains the main body content.

创建时间：

2019-04-29

原始信息汇总

数据集概述

数据集目标

一期目标：10个百万级中文语料 & 3个千万级中文语料（2019年5月1号）
二期目标：30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料（2019年12月31日）

数据集更新

增加高质量社区问答json版(webtext2019zh)，410万个问答，适合训练超大模型
添加520万翻译语料(translation2019zh)

主要数据集内容

维基百科(wiki2019zh)
- 数据量：100万个结构良好的中文词条
- 数据结构：{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
- 用途：通用中文语料，预训练语料，构建词向量，知识问答
新闻语料(news2016zh)
- 数据量：250万篇新闻，含关键词、描述
- 数据结构：{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
- 用途：通用中文语料，训练词向量，预训练语料，标题生成模型，关键词生成模型
百科问答(baike2018qa)
- 数据量：150万个带问题类型的问答
- 数据结构：{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
- 用途：通用中文语料，训练词向量，预训练语料，百科类问答
社区问答json版(webtext2019zh)
- 数据量：410万个高质量社区问答
- 数据结构：{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
- 用途：构建百科类问答，话题预测模型，社区问答系统，通用中文语料，大模型预训练语料，训练词向量
翻译语料(translation2019zh)
- 数据量：520万个中英文句子对
- 数据结构：{"english": <english>, "chinese": <chinese>}
- 用途：训练中英文翻译系统，通用中文语料，训练词向量，预训练语料

贡献语料

贡献方式：发送邮件至nlp_chinese_corpus@163.com
贡献奖励：根据语料质量和量级，选出前20个贡献者，寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品

以上信息为数据集详情页面的关键内容概述。

搜集汇总

数据集介绍

构建方式

维基百科json版(wiki2019zh)数据集的构建基于维基百科的中文词条，通过提取和整理104万个结构良好的中文词条，生成了包含标题、正文等信息的JSON格式数据。每个词条均经过严格的筛选和处理，确保数据的准确性和完整性。数据集的构建过程注重信息的结构化和标准化，便于后续的自然语言处理任务。

使用方法

维基百科json版(wiki2019zh)数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以直接下载数据集，并通过解析JSON格式的数据进行词条信息的提取和分析。该数据集可用于训练中文词向量模型、构建知识问答系统或作为预训练语料。此外，数据集的结构化设计使得其易于与其他自然语言处理工具和框架集成，进一步扩展其应用场景。

背景与挑战

背景概述

维基百科json版(wiki2019zh)数据集由brightmart团队于2019年创建，旨在为中文自然语言处理（NLP）领域提供大规模、高质量的中文语料。该数据集包含了104万个结构良好的中文维基百科词条，涵盖了广泛的领域知识，适用于预训练语言模型、词向量构建以及知识问答系统的开发。该数据集的发布填补了当时中文语料资源的空白，极大地推动了中文NLP技术的发展，尤其是在大规模语言模型训练和知识图谱构建方面。

当前挑战

该数据集的主要挑战在于如何确保语料的质量和多样性。首先，维基百科词条的内容虽然丰富，但其结构和语言风格较为正式，可能无法完全覆盖日常语言的使用场景，限制了模型在非正式文本上的表现。其次，数据集的构建过程中需要处理大量的原始数据，包括去重、格式转换和内容清洗，这些步骤对计算资源和时间成本提出了较高要求。此外，如何有效利用这些语料进行模型训练，尤其是在多任务学习和跨领域迁移学习中的应用，仍然是当前研究的难点。

常用场景

经典使用场景

维基百科json版(wiki2019zh)数据集在中文自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其结构化的词条数据，包含丰富的语义信息，能够有效支持文本生成、知识问答等任务。通过该数据集，研究者可以训练出具有强大泛化能力的模型，提升中文NLP任务的性能。

解决学术问题

该数据集解决了中文自然语言处理领域中高质量语料稀缺的问题。通过提供104万个结构良好的中文词条，研究者能够更高效地训练语言模型，提升词向量表示的质量。此外，其丰富的语义信息为知识问答、文本分类等任务提供了坚实的基础，推动了中文NLP技术的发展。

实际应用

在实际应用中，维基百科json版(wiki2019zh)数据集被用于构建智能问答系统、知识图谱以及搜索引擎的语义理解模块。其高质量的词条数据能够支持企业开发更智能的客服系统、教育领域的知识库构建，以及新闻媒体领域的自动摘要生成等场景。

数据集最近研究