five

维基百科(wiki2019zh)

收藏
github2019-06-03 更新2024-05-31 收录
下载链接:
https://github.com/MashiMaroLjc/nlp_chinese_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练的语料或构建词向量,也可用于构建知识问答。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.
创建时间:
2019-06-02
原始信息汇总

数据集概述

数据集目标

  • 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
  • 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)

数据集更新

  • 增加高质量社区问答json版(webtext2019zh),410万个问答,适合训练超大模型
  • 添加520万翻译语料(translation2019zh)

数据集内容

  1. 维基百科(wiki2019zh)

    • 数量:100万个结构良好的中文词条
    • 用途:通用中文语料,预训练语料,构建词向量,知识问答
    • 结构:{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
  2. 新闻语料(news2016zh)

    • 数量:250万篇新闻,含关键词、描述
    • 用途:通用中文语料,训练词向量,预训练语料,标题生成模型,关键词生成模型
    • 结构:{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
  3. 百科问答(baike2018qa)

    • 数量:150万个带问题类型的问答
    • 用途:通用中文语料,训练词向量,预训练语料,百科类问答
    • 结构:{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
  4. 社区问答json版(webtext2019zh)

    • 数量:410万个高质量社区问答
    • 用途:构建百科类问答,话题预测模型,社区问答系统,通用中文语料,大模型预训练
    • 结构:{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
  5. 翻译语料(translation2019zh)

    • 数量:520万个中英文句子对
    • 用途:训练中英文翻译系统,通用中文语料,训练词向量,预训练语料
    • 结构:{"english": <english>, "chinese": <chinese>}

数据集贡献

  • 贡献方式:发送邮件至nlp_chinese_corpus@163.com
  • 贡献奖励:根据语料质量和量级,选出前20个贡献者,寄出键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品。
搜集汇总
数据集介绍
main_image_url
构建方式
维基百科(wiki2019zh)数据集的构建是通过从维基百科抓取中文词条,经过筛选和清洗,最终形成了一个包含100万个结构良好中文词条的数据集。每个词条由标题、正文以及对应的URL组成,数据采用JSON格式存储,便于处理和使用。
特点
该数据集的特点在于其来源的权威性和内容的多样性。维基百科作为全球知名的知识共享平台,其内容涵盖了各个领域的知识。此外,数据集经过精心清洗和过滤,保证了数据的质量和可用性。采用JSON格式存储,便于快速读取和处理。
使用方法
用户可以通过下载提供的压缩文件来获取数据集,并使用JSON解析工具进行读取。数据集可用于自然语言处理任务中的预训练、构建词向量、知识问答等场景。针对不同的应用需求,用户可以对数据进行进一步的处理和整合。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集是一款旨在推动中文自然语言处理领域发展的资源,由nlp_chinese_corpus项目团队于2019年构建。该数据集包含了100万个结构良好的中文词条,每个词条由标题和正文组成,为研究者提供了丰富的语义信息。其创建旨在解决中文信息获取的难题,为训练词向量、构建知识问答系统等任务提供高质量的语料。该数据集的构建得益于众多研究者和机构的共同努力,对中文自然语言处理领域产生了深远的影响。
当前挑战
在构建维基百科(wiki2019zh)数据集的过程中,研究者面临了多方面的挑战。首先,确保词条的结构良好、信息准确,需要大量的人工审核和预处理工作。其次,为了满足大规模预训练的需求,数据集的规模和质量都必须达到一定的标准,这对数据收集和处理提出了更高的要求。此外,由于维基百科内容的动态更新,数据集的时效性和准确性也需要不断地维护和更新。在应用层面,如何有效地从数据集中提取有用信息,构建高效的自然语言处理模型,也是当前面临的重要挑战之一。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集作为中文自然语言处理领域的重要资源,其经典使用场景主要包括预训练语言模型、构建词向量以及用于知识问答系统的训练。通过该数据集,研究人员可以训练出适用于中文语境的语言模型,为各类NLP任务提供强有力的基础模型支撑。
解决学术问题
该数据集解决了中文NLP领域缺乏大规模、高质量语料的问题,有助于提升词向量模型的准确性和泛化能力,同时为知识问答、文本分类等任务提供了丰富的训练数据,推动了相关学术研究的进展。
衍生相关工作
基于维基百科(wiki2019zh)数据集,已经衍生出多项相关研究工作,包括构建大规模预训练模型、用于不同NLP任务的基准测试以及跨领域文本分析等,这些工作进一步扩展了数据集的应用范围,并推动了中文NLP领域的科技进步。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务