five

nlp_chinese_corpus

收藏
github2019-07-11 更新2024-05-31 收录
下载链接:
https://github.com/nonva/nlp_chinese_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
大规模中文自然语言处理语料库,包含多个数据集如维基百科、新闻语料、百科问答等,用于支持中文NLP研究和模型训练。

A large-scale Chinese natural language processing corpus, encompassing multiple datasets such as Wikipedia, news corpora, and encyclopedic Q&A, designed to support Chinese NLP research and model training.
创建时间:
2019-07-11
原始信息汇总

数据集概述

数据集目标

  • 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
  • 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)

数据集更新

  • 增加高质量社区问答json版(webtext2019zh),410万个问答,适合训练超大模型
  • 添加520万翻译语料(translation2019zh)

主要数据集

  1. 维基百科(wiki2019zh)

    • 数据量:100万个结构良好的中文词条
    • 用途:通用中文语料,预训练语料,构建词向量,知识问答
    • 结构:{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
  2. 新闻语料(news2016zh)

    • 数据量:250万篇新闻,含关键词、描述
    • 用途:通用中文语料,训练词向量,预训练语料,标题生成模型,关键词生成模型
    • 结构:{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
  3. 百科问答(baike2018qa)

    • 数据量:150万个带问题类型的问答
    • 用途:通用中文语料,训练词向量,预训练语料,百科类问答
    • 结构:{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
  4. 社区问答json版(webtext2019zh)

    • 数据量:410万个高质量社区问答
    • 用途:构建百科类问答,话题预测模型,社区问答系统,大模型预训练,词向量训练
    • 结构:{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
  5. 翻译语料(translation2019zh)

    • 数据量:520万个中英文句子对
    • 用途:中英文翻译系统训练,通用中文语料,词向量训练,预训练语料
    • 结构:{"english": <english>, "chinese": <chinese>}

贡献语料

  • 贡献方式:发送邮件至nlp_chinese_corpus@163.com
  • 贡献奖励:根据语料质量和量级,选出前20个贡献者,提供键盘、鼠标等物品作为感谢。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过广泛收集互联网上的中文内容,包括维基百科、新闻、百科问答、社区问答以及翻译语料等,经过筛选、去重和结构化处理构建而成。构建过程中注重数据的质量和多样性,以确保语料的实用性和广泛性。
特点
数据集特点在于其规模宏大、内容丰富、来源多样。涵盖了从百万级到亿级的中文语料,包含了不同领域的知识问答、社区互动和翻译对照,为研究者提供了丰富的文本资源,有助于推动中文自然语言处理技术的发展。
使用方法
用户可以通过直接下载或邮件联系的方式获取数据集。数据集以json格式存储,便于处理和集成。用户可以根据自己的研究需求,将这些语料用于词向量训练、预训练模型构建、问答系统开发、翻译系统训练等多种自然语言处理任务。
背景与挑战
背景概述
nlp_chinese_corpus是一个为推动中文自然语言处理领域发展而构建的语料库项目,创建于2019年。该项目由多个研究人员和机构共同维护,旨在解决中文自然语言处理领域缺乏大规模、高质量语料的问题。该数据集涵盖了从维基百科、新闻、百科问答到社区问答和翻译语料等多个方面的中文内容,为研究者提供了丰富的语料资源,对中文自然语言处理领域产生了重要影响。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1)如何从庞大的原始数据中筛选和清洗出高质量、有用的语料;2)如何确保数据集的多样性和平衡性,以满足不同研究需求;3)如何处理和整合不同来源和格式的数据,以形成一个统一的语料库。在所解决的领域问题上,该数据集面临的挑战包括:如何利用这些语料训练出更准确、高效的中文自然语言处理模型,以及如何构建有效的数据集评测标准来衡量模型性能。
常用场景
经典使用场景
nlp_chinese_corpus数据集作为中文自然语言处理领域的重要资源,其经典使用场景主要在于为深度学习模型提供大规模的预训练语料。例如,使用wiki2019zh进行词向量训练,构建出适用于中文文本处理的词向量模型,或是利用webtext2019zh进行大规模预训练,以提升模型的语义理解能力。
实际应用
在实际应用中,nlp_chinese_corpus数据集可用于开发智能客服、搜索引擎、机器翻译等AI产品。例如,新闻语料(news2016zh)可以用于训练标题生成和关键词提取模型,以提高信息检索的效率和准确性。
衍生相关工作
基于nlp_chinese_corpus数据集,研究者们已经衍生出一系列相关工作,如构建预训练模型、开发专用NLP工具、进行语言模型的效果评估等。这些工作不仅推动了中文NLP领域的学术研究,也为实际应用中的技术进步提供了强有力的支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作