维基百科(wiki2019zh)
收藏github2019-02-15 更新2024-05-31 收录
下载链接:
https://github.com/andysongsx/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
维基百科json版包含104万个词条,可作为通用中文语料,用于预训练的语料或构建词向量,也可用于构建知识问答。
The Wikipedia JSON version contains 1.04 million entries, serving as a general Chinese corpus. It can be utilized for pre-training materials or constructing word vectors, and is also suitable for building knowledge-based question-answering systems.
创建时间:
2019-02-15
原始信息汇总
数据集概述
维基百科(wiki2019zh)
- 规模: 1,043,224个词条,原始文件大小1.6G,压缩文件519M。
- 更新时间: 2019年2月7日。
- 结构: 每个词条包含id, url, title, text字段。
- 用途: 通用中文语料,预训练语料,构建词向量,知识问答。
新闻语料(news2016zh)
- 规模: 250万篇新闻,原始数据9G,压缩文件3.6G。
- 时间范围: 2014-2016年。
- 结构: 包含news_id, title, content, source, time, keywords, desc字段。
- 用途: 通用中文语料,词向量训练,预训练语料,标题生成,关键词生成。
百科类问答(baike2018qa)
- 规模: 150万个问答,原始数据1G多,压缩文件663M。
- 结构: 包含qid, category, title, desc, answer字段。
- 用途: 通用中文语料,词向量训练,预训练语料,百科类问答。
翻译语料(translation2019zh)
- 规模: 520万个中英文平行语料,原始数据1.1G,压缩文件596M。
- 结构: 包含english, chinese字段,中英文一一对应。
- 用途: 中英文翻译系统训练,通用中文语料,词向量训练,预训练语料。
数据集贡献
- 联系方式: nlp_chinese_corpus@163.com
- 贡献目标: 扩充语料库,包括百万级和千万级中文语料。
- 贡献奖励: 根据语料质量和量级,选出前20名贡献者,提供键盘、鼠标等物品。
搜集汇总
数据集介绍

构建方式
维基百科(wiki2019zh)数据集的构建基于2019年2月7日的维基百科中文版,包含了1,043,224个词条。该数据集通过提取维基百科的词条内容,将其结构化为JSON格式,每个词条包含ID、URL、标题和正文信息。数据集的原始文件大小为1.6G,压缩后为519M,确保了数据的高效存储和传输。
特点
维基百科(wiki2019zh)数据集具有广泛的应用潜力,可作为通用中文语料用于预训练模型或构建词向量。其特点在于包含了大量高质量的文本信息,涵盖了多个领域的知识,适合用于知识问答系统的构建。此外,数据集的结构化格式便于直接用于自然语言处理任务,如文本分类、信息检索等。
使用方法
使用维基百科(wiki2019zh)数据集时,用户可以通过提供的直接下载链接获取数据。数据以JSON格式存储,每个词条包含ID、URL、标题和正文信息。用户可以根据需要提取和处理数据,例如用于训练词向量模型、构建知识图谱或进行文本分析。数据集的结构化设计使得数据处理和分析过程更加高效和便捷。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集是由一群致力于中文自然语言处理的研究人员和机构于2019年创建的,旨在为中文语料库的构建和扩展提供支持。该数据集包含了104万个维基百科词条,涵盖了广泛的知识领域,为研究人员提供了一个丰富且多样化的语料资源。其创建的主要目的是解决在中文自然语言处理领域中,获取大规模高质量语料的困难。通过提供结构化的数据,该数据集不仅支持词向量训练和预训练模型的构建,还为知识问答系统的发展提供了基础。
当前挑战
尽管维基百科(wiki2019zh)数据集为中文自然语言处理领域提供了宝贵的资源,但其构建和应用过程中仍面临若干挑战。首先,数据的质量控制是一个重要问题,包括文本的准确性、一致性和完整性。其次,数据集的规模虽然庞大,但在处理特定领域或专业知识时,可能仍显不足,需要进一步的细分和扩展。此外,数据集的更新和维护也是一个持续的挑战,以确保其与最新的知识和技术发展保持同步。最后,如何有效地利用这些数据进行模型训练和应用,特别是在处理多语言和跨文化内容时,仍需深入研究和探索。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集在中文自然语言处理领域中被广泛应用于预训练模型的构建。其丰富的文本内容和多样的主题覆盖,使得该数据集成为训练词向量和语言模型的理想选择。通过该数据集,研究者可以有效地提升模型对中文语境的理解能力,从而在文本分类、情感分析和机器翻译等任务中取得更优的表现。
衍生相关工作
基于维基百科(wiki2019zh)数据集,研究者开发了多种词向量模型和预训练语言模型,如BERT和GPT系列模型在中文处理中的应用。这些模型通过利用维基百科的丰富语料,显著提升了中文文本处理的性能。此外,该数据集还激发了关于多语言对齐和跨语言迁移学习的研究,推动了全球自然语言处理技术的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,维基百科(wiki2019zh)数据集的最新研究方向主要集中在预训练语言模型和知识图谱的构建上。随着深度学习技术的发展,研究人员利用该数据集训练大规模的预训练语言模型,如BERT和GPT系列,以提升模型在多种NLP任务中的表现。此外,维基百科丰富的结构化信息也被用于构建和扩展知识图谱,增强机器对实体及其关系的理解,从而在问答系统和信息检索中展现出更高的准确性和效率。这些研究不仅推动了中文自然语言处理技术的进步,也为跨语言理解和多模态数据融合提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



