维基百科json版(wiki2019zh)
收藏github2019-09-23 更新2024-05-31 收录
下载链接:
https://github.com/tqdonkey/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练的语料或构建词向量,也可用于构建知识问答。数据结构包括id、url、title和text,其中title是词条的标题,text是正文。
This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question-answering systems. The data structure includes id, url, title, and text, where the title represents the heading of the entry and the text contains the main body.
创建时间:
2019-09-23
原始信息汇总
数据集概述
本数据集专注于中文自然语言处理领域,提供了多种类型的中文语料,旨在支持大规模NLP模型的训练和研究。以下是数据集的主要组成部分及其详细信息:
1. 维基百科(wiki2019zh)
- 规模: 104万个词条
- 数据大小: 原始文件1.6G,压缩文件519M
- 更新时间: 2019年2月7日
- 结构: 包含id、url、title、text等字段
- 用途: 通用中文语料,预训练语料,构建词向量,知识问答
2. 新闻语料(news2016zh)
- 规模: 250万篇新闻
- 数据大小: 原始数据9G,压缩文件3.6G
- 内容跨度: 2014-2016年
- 结构: 包含news_id、title、content、source、time、keywords、desc等字段
- 用途: 通用中文语料,词向量训练,预训练,标题生成,关键词生成
3. 百科问答(baike2018qa)
- 规模: 150万个问答
- 数据大小: 原始数据1G多,压缩文件663M
- 更新时间: 2018年
- 结构: 包含qid、category、title、desc、answer等字段
- 用途: 通用中文语料,词向量训练,预训练,百科类问答
4. 社区问答json版(webtext2019zh)
- 规模: 410万个问答
- 数据大小: 过滤后数据3.7G,压缩文件1.7G
- 内容跨度: 2015-2016年
- 结构: 包含qid、title、desc、topic、star、content、answer_id、answerer_tags等字段
- 用途: 构建百科类问答,话题预测,社区问答系统,词向量训练,预训练
5. 翻译语料(translation2019zh)
- 规模: 520万个中英文平行语料
- 数据大小: 原始数据1.1G,压缩文件596M
- 结构: 包含english、chinese等字段
- 用途: 中英文翻译系统训练,通用中文语料,词向量训练,预训练
这些数据集支持多种NLP任务,包括但不限于词向量训练、预训练、问答系统构建和翻译模型训练,为中文自然语言处理的研究和应用提供了丰富的资源。
搜集汇总
数据集介绍

构建方式
维基百科json版(wiki2019zh)数据集的构建采用了从维基百科抓取中文词条的方式,经过筛选和清洗,最终形成了包含100万个结构良好中文词条的语料库。每个词条由标题和正文构成,并以JSON格式存储,便于处理和检索。
使用方法
使用该数据集时,用户可以直接下载并解压JSON格式的文件,然后利用相关编程语言处理JSON数据,提取出所需的标题、正文等信息。该数据集适用于构建语言模型、进行知识问答、训练词向量等,用户可根据具体任务需求进行相应的数据预处理和模型训练。
背景与挑战
背景概述
维基百科json版(wiki2019zh)是一款于2019年发布的大型中文语料库。该数据集由Brightmart团队创建,旨在为中文自然语言处理领域提供高质量的语料资源。wiki2019zh包含了100万个结构良好的中文词条,这些词条来自于维基百科,每个词条都包含标题和正文。该数据集的创建,对于推动中文NLP技术的发展起到了积极作用,为研究者提供了丰富的数据资源,使得中文词向量模型、预训练模型等研究成果得以涌现。
当前挑战
在构建wiki2019zh数据集的过程中,研究者面临着多项挑战。首先,如何从维基百科中提取并筛选出高质量的中文词条是一大挑战,需要对文本进行清洗和预处理。其次,数据集的规模和质量双重保障也是一项艰巨的任务,需要消耗大量的人力和计算资源。此外,数据集的构建还需考虑到版权问题,确保所有数据的使用都是合法合规的。在研究领域问题方面,wiki2019zh数据集对于构建知识问答系统、训练词向量模型等任务具有重要意义,但其标注质量、覆盖领域广度以及与其他数据集的融合使用等问题,都是未来研究需要克服的挑战。
常用场景
经典使用场景
维基百科json版(wiki2019zh)作为大规模中文语料库,其经典使用场景在于为中文自然语言处理任务提供丰富的训练数据。例如,可用于构建和训练词向量模型,进而改善语言模型的理解和生成能力。此外,该数据集亦可用于构建知识图谱,通过分析词条之间的关联,挖掘潜在的知识结构。
解决学术问题
该数据集解决了中文自然语言处理领域中的多个学术研究问题,如词向量质量、语言模型预训练、知识问答系统构建等。它提供了海量的中文文本数据,有助于提升模型的泛化能力和准确度,为研究者和开发者提供了实验和研究的坚实基础。
实际应用
在实际应用中,维基百科json版(wiki2019zh)可用于搜索引擎优化、智能客服系统构建、内容推荐系统等领域。通过深度学习模型训练,可以实现对大量中文文本的快速理解和准确回应,提高服务效率和用户满意度。
数据集最近研究
最新研究方向
近期,维基百科json版(wiki2019zh)数据集在自然语言处理领域的应用研究主要集中在构建预训练语言模型、知识问答系统以及话题预测等方面。其中,RoBERTa中文版的训练,使得该数据集在预训练模型研究领域具有重要价值。同时,通过该数据集构建的百科类问答模型,为用户提供高质量的问答服务。此外,该数据集也被用于话题预测模型的研究,以改善社区问答系统。这些研究不仅推动了中文自然语言处理技术的发展,也为相关领域的研究提供了丰富的语料资源。
以上内容由遇见数据集搜集并总结生成



