five

维基百科(wiki2019zh)

收藏
github2024-02-29 更新2024-05-31 收录
下载链接:
https://github.com/sunyilgdx/nlp_chinese_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含104万个结构良好的中文词条,可用于预训练的语料或构建词向量,也可用于构建知识问答。

This dataset comprises 1.04 million well-structured Chinese entries, suitable for use as pre-training corpus or for constructing word vectors, and can also be utilized to build knowledge-based question answering systems.
创建时间:
2019-07-27
原始信息汇总

数据集概述

数据集目标

  • 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
  • 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)

数据集更新

  • 增加高质量社区问答json版(webtext2019zh),410万个问答,适合训练超大模型
  • 添加520万翻译语料(translation2019zh)

数据集内容

  1. 维基百科(wiki2019zh)

    • 数量:100万个结构良好的中文词条
    • 用途:通用中文语料,预训练语料,构建词向量,知识问答
    • 结构:{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
  2. 新闻语料(news2016zh)

    • 数量:250万篇新闻,含关键词、描述
    • 用途:通用中文语料,训练词向量,预训练语料,标题生成模型,关键词生成模型
    • 结构:{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
  3. 百科问答(baike2018qa)

    • 数量:150万个带问题类型的问答
    • 用途:通用中文语料,训练词向量,预训练语料,百科类问答
    • 结构:{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
  4. 社区问答json版(webtext2019zh)

    • 数量:410万个高质量社区问答
    • 用途:构建百科类问答,话题预测模型,社区问答系统,通用中文语料,大模型预训练
    • 结构:{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
  5. 翻译语料(translation2019zh)

    • 数量:520万个中英文句子对
    • 用途:训练中英文翻译系统,通用中文语料,训练词向量
    • 结构:{"english": <english>, "chinese": <chinese>}

数据集贡献

  • 贡献方式:发送邮件至nlp_chinese_corpus@163.com
  • 贡献奖励:根据语料质量和量级,选出前20个贡献者,提供键盘、鼠标、显示屏等物品以示感谢。
搜集汇总
数据集介绍
main_image_url
构建方式
维基百科(wiki2019zh)数据集的构建基于2019年2月7日的中文维基百科词条,共计104万个结构良好的中文词条。数据以JSON格式存储,每个词条包含ID、URL、标题和正文信息。正文通过换行符进行分段,确保数据的结构化和易读性。数据集的原始文件大小为1.6G,压缩后为519M,便于下载和使用。
使用方法
维基百科(wiki2019zh)数据集可用于多种自然语言处理任务,如预训练中文语言模型、构建词向量或知识问答系统。用户可以通过下载压缩文件获取数据,并使用JSON解析工具进行数据处理。每个词条的标题和正文信息可直接用于模型训练或知识库构建。此外,数据集的URL信息还可用于进一步扩展数据来源或进行数据验证。
背景与挑战
背景概述
维基百科(wiki2019zh)数据集是中文自然语言处理领域的重要语料资源,由brightmart团队于2019年创建,旨在为中文NLP研究提供大规模、高质量的结构化文本数据。该数据集包含104万个中文维基百科词条,涵盖了广泛的学科和主题,为预训练语言模型、词向量构建以及知识问答系统等任务提供了丰富的语料支持。其创建背景源于当时中文语料资源的匮乏,尤其是大规模、高质量语料的稀缺性,严重制约了中文NLP技术的发展。wiki2019zh的发布填补了这一空白,显著推动了中文NLP领域的研究与应用,尤其是在预训练模型和知识图谱构建方面发挥了重要作用。
当前挑战
维基百科(wiki2019zh)数据集在解决中文NLP领域问题的过程中面临多重挑战。首先,中文语料的多样性和复杂性对数据清洗和结构化处理提出了高要求,尤其是在去除噪声、统一格式以及确保数据质量方面。其次,构建大规模语料库需要处理海量数据,这对存储、计算资源和数据处理效率提出了严峻考验。此外,维基百科内容的动态更新特性使得数据集的时效性难以保证,如何在保持数据规模的同时实现实时更新成为一大难题。最后,数据集的广泛应用场景,如预训练模型和知识问答系统,对语料的覆盖范围、多样性和准确性提出了更高要求,这进一步增加了数据构建和优化的难度。
常用场景
经典使用场景
维基百科(wiki2019zh)数据集在中文自然语言处理领域中被广泛用于预训练语言模型和构建词向量。其包含的100万个结构良好的中文词条,涵盖了丰富的知识领域,为研究者提供了高质量的通用中文语料。通过该数据集,研究者能够训练出更加精准的语言模型,提升文本生成、文本分类等任务的性能。
解决学术问题
该数据集解决了中文自然语言处理领域中的语料稀缺问题。在2019年之前,获取大规模、高质量的中文语料极为困难,研究者往往面临数据量不足或数据陈旧的问题。维基百科(wiki2019zh)的推出,为中文NLP研究提供了丰富的语料资源,极大地推动了中文词向量、知识问答系统等领域的研究进展。
实际应用
在实际应用中,维基百科(wiki2019zh)数据集被广泛用于构建知识问答系统、智能客服以及搜索引擎的优化。其结构化的词条信息能够帮助系统快速检索和生成准确的答案,提升用户体验。此外,该数据集还被用于训练中文语言模型,支持机器翻译、文本摘要等实际应用场景。
数据集最近研究
最新研究方向
在中文自然语言处理领域,维基百科(wiki2019zh)数据集的最新研究方向主要集中在预训练语言模型的优化与应用。随着大规模预训练模型如BERT、GPT等的兴起,该数据集被广泛用于训练中文语言模型,以提升模型在文本生成、问答系统、机器翻译等任务中的表现。近年来,研究者们还探索了如何利用该数据集进行知识图谱构建和知识增强的预训练,以进一步提升模型在复杂语义理解和推理任务中的能力。此外,随着多模态学习的兴起,该数据集也被用于结合视觉和文本信息的多模态预训练研究,推动中文自然语言处理技术在多领域的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作