维基百科(wiki2019zh)
收藏github2019-10-11 更新2024-05-31 收录
下载链接:
https://github.com/duxiaochao/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练语料或构建词向量,也可用于构建知识问答。数据集结构包括id、url、title和text,其中title是词条标题,text是正文。
This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, as well as for building knowledge-based question-answering systems. The dataset structure includes fields for id, url, title, and text, where the title represents the entry heading and the text contains the main body content.
创建时间:
2019-10-11
原始信息汇总
数据集概述
1. 维基百科(wiki2019zh)
- 规模: 104万个词条
- 数据大小: 原始文件1.6G,压缩文件519M
- 更新时间: 2019年2月7日
- 结构:
{"id":<id>,"url":<url>,"title":<title>,"text":<text>} - 用途: 通用中文语料,预训练语料,构建词向量,知识问答
2. 新闻语料(news2016zh)
- 规模: 250万篇新闻
- 数据大小: 原始数据9G,压缩文件3.6G
- 时间跨度: 2014-2016年
- 结构:
{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>} - 用途: 通用中文语料,训练词向量,预训练语料,标题生成,关键词生成
3. 百科问答(baike2018qa)
- 规模: 150万个问答
- 数据大小: 原始数据1G多,压缩文件663M
- 更新时间: 2018年
- 结构:
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>} - 用途: 通用中文语料,训练词向量,预训练语料,百科类问答
4. 社区问答json版(webtext2019zh)
- 规模: 410万个问答
- 数据大小: 过滤后数据3.7G,压缩文件1.7G
- 时间跨度: 2015-2016年
- 结构:
{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>} - 用途: 构建百科类问答,话题预测,社区问答系统,通用中文语料,训练词向量,预训练语料
5. 翻译语料(translation2019zh)
- 规模: 520万个中英文平行语料
- 数据大小: 原始数据1.1G,压缩文件596M
- 结构:
{"english": <english>, "chinese": <chinese>} - 用途: 训练中英文翻译系统,通用中文语料,训练词向量,预训练语料
搜集汇总
数据集介绍

构建方式
维基百科(wiki2019zh)数据集的构建,是通过从维基百科提取中文词条的方式进行的。该数据集包含了100万个结构良好的中文词条,每个词条由标题和正文组成,并以json格式存储。构建过程中,对词条进行了去重处理,并更新至2019年2月7日,确保了数据的时效性和质量。
特点
该数据集的特点在于其结构化良好,每个词条都包含唯一的标识符、标题和正文,便于进行文本分析和处理。同时,数据集的规模适中,适合用于中文自然语言处理任务中的预训练和模型训练。此外,数据集来源于维基百科,覆盖了广泛的主题和知识点,增加了数据的多样性和实用性。
使用方法
使用该数据集时,用户可以直接下载并解压相应的文件,然后根据json格式读取数据。数据集可用于训练词向量、构建预训练模型、进行知识问答等任务。针对不同的应用场景,用户可以按照数据集提供的字段进行相应的数据预处理和模型构建。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集是一款于2019年发布的中文自然语言处理语料库。该数据集由Bright Xu等人创建,包含了100万个结构良好的中文词条,旨在为中文自然语言处理领域的发展提供高质量的语料支持。其数据来源于维基百科,经过筛选和处理,形成了适用于多种自然语言处理任务的语料库。该数据集的发布对于缺乏大规模中文语料库的研究人员和学生来说具有重要价值,极大地推动了相关领域的研究进程。
当前挑战
在构建维基百科(wiki2019zh)数据集的过程中,主要面临的挑战包括如何从大规模的原始数据中筛选出高质量的中文词条,以及如何确保数据的结构化和标准化,以便于后续的处理和应用。此外,数据集构建完成后,如何有效地验证其质量和适用性,以及如何确保数据集的持续更新和维护,也是需要克服的重要问题。在研究领域,如何利用这一数据集进行创新的研究,以及如何处理数据集中的噪声和偏差,提高模型的鲁棒性和泛化能力,都是当前面临的挑战。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集,作为中文自然语言处理领域的重要资源,其经典使用场景在于构建和预训练中文词向量模型。通过对该数据集中高质量中文词条的深入分析,研究者能够训练出在语义表示上具有较高准确性的词向量,进而提升下游任务的性能,例如文本分类、机器翻译等。
解决学术问题
该数据集解决了中文自然语言处理中缺乏大规模、高质量语料的问题,为学术研究提供了丰富的文本资源。其结构化的数据格式便于研究者进行数据预处理和模型训练,有助于推动中文信息抽取、问答系统、文本生成等研究方向的发展。
衍生相关工作
基于维基百科(wiki2019zh)数据集,研究者们已衍生出多项相关工作,包括但不限于构建大规模中文预训练模型、开发面向特定领域的问答系统、以及进行跨语言信息检索研究等。这些工作不仅推动了中文自然语言处理领域的技术进步,也为其他语言的处理提供了借鉴和参考。
以上内容由遇见数据集搜集并总结生成



