five

维基百科json版(wiki2019zh)

收藏
github2019-07-28 更新2024-05-31 收录
下载链接:
https://github.com/554290516/nlp_chinese_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练的语料或构建词向量,也可用于构建知识问答。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.
创建时间:
2019-07-26
原始信息汇总

数据集概述

数据集目标

  • 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
  • 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)

数据集更新

  • 增加高质量社区问答json版(webtext2019zh),410万个问答,适合训练超大模型
  • 添加520万翻译语料(translation2019zh)

主要数据集

  1. 维基百科(wiki2019zh)

    • 包含100万个结构良好的中文词条
    • 数据结构:{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
    • 可能用途:预训练语料,构建词向量,知识问答
  2. 新闻语料(news2016zh)

    • 包含250万篇新闻,含关键词、描述
    • 数据结构:{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
    • 可能用途:预训练语料,词向量训练,标题生成模型,关键词生成模型
  3. 百科问答(baike2018qa)

    • 包含150万个带问题类型的问答
    • 数据结构:{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
    • 可能用途:预训练语料,词向量训练,百科类问答构建
  4. 社区问答json版(webtext2019zh)

    • 包含410万个高质量社区问答
    • 数据结构:{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
    • 可能用途:预训练语料,词向量训练,话题预测模型,社区问答系统
  5. 翻译语料(translation2019zh)

    • 包含520万个中英文句子对
    • 数据结构:{"english": <english>, "chinese": <chinese>}
    • 可能用途:中英文翻译系统训练,预训练语料,词向量训练

贡献语料

  • 贡献方式:发送邮件至nlp_chinese_corpus@163.com
  • 贡献奖励:根据语料质量和量级,选出前20个贡献者,寄送键盘、鼠标、显示屏、无线耳机、智能音箱或其他等值物品
搜集汇总
数据集介绍
main_image_url
构建方式
维基百科json版(wiki2019zh)数据集的构建是通过从维基百科抓取中文词条,经过筛选和清洗,最终形成了一个包含104万个词条的语料库。每个词条包含标题和正文,并以json格式存储,便于处理和使用。
使用方法
使用该数据集时,用户可以直接下载并解压获得原始数据。由于数据集以json格式存储,用户可以利用各种编程语言中的json处理库来读取和使用数据。针对不同的应用场景,用户可以进行预训练、构建词向量、构建问答系统等操作。
背景与挑战
背景概述
维基百科json版(wiki2019zh)是一款为中文自然语言处理领域量身定制的语料库。该数据集由nlp_chinese_corpus项目在2019年推出,旨在解决中文自然语言处理领域在高质量、大规模语料库方面的需求。该数据集包含了104万个经过精心处理的中文词条,涵盖了广泛的知识领域,为构建词向量、预训练模型或知识问答系统提供了丰富的文本资源。
当前挑战
在构建维基百科json版数据集的过程中,研究人员面临了多项挑战。首先,如何从维基百科的原始数据中提取并处理出结构化、高质量的中文词条是一大挑战。其次,确保数据集的多样性和准确性,同时去除重复和低质量的内容,也是数据集构建过程中的关键难题。此外,针对中文特有的语言特点,如何优化数据结构以适应中文自然语言处理的需求,也是构建该数据集时必须考虑的问题。
常用场景
经典使用场景
维基百科json版(wiki2019zh)作为大规模的中文语料库,其经典使用场景主要集中于自然语言处理领域。例如,它可用于预训练语言模型,以提升模型的中文理解能力;同时,它也是构建词向量的理想数据源,通过这种方式可以有效地捕捉中文词汇的语义信息。
解决学术问题
该数据集解决了中文自然语言处理领域中的诸多学术研究问题,如词汇语义的表示、语言模型的预训练、知识问答系统的构建等。它提供了丰富的语料资源,使得研究人员能够在不同层面和角度对中文语言进行处理和分析,进而推动相关研究的深入。
实际应用
在实际应用中,维基百科json版(wiki2019zh)可被用于开发和优化搜索引擎、机器翻译系统、智能问答系统等。这些应用能够通过利用数据集中的丰富信息,提高服务的准确性和用户体验。
数据集最近研究
最新研究方向
近期,围绕维基百科json版(wiki2019zh)的数据集研究,学者们主要聚焦于自然语言处理领域,特别是在构建通用中文语料库、预训练语言模型以及知识问答系统等方面。该数据集凭借其规模庞大、结构良好的特点,成为研究中文语言模型和知识获取的重要资源。当前研究不仅关注于如何利用该数据集提升词向量的质量,还在探索如何通过深度学习技术从数据中提取有用知识,以促进诸如机器翻译、信息检索和文本生成等任务的性能提升。同时,该数据集也推动了社区问答和话题预测等研究方向的发展,为中文自然语言处理领域的研究提供了强有力的数据支持。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务