five

nlp_chinese_corpus

收藏
github2019-05-21 更新2024-05-31 收录
下载链接:
https://github.com/GandalfLiu/nlp_chinese_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
提供大规模中文自然语言处理语料,包括维基百科、新闻语料、百科问答等多种类型的数据集,旨在帮助中文NLP领域的研究和应用。

This dataset provides a large-scale corpus for Chinese natural language processing (NLP), encompassing various types of data such as Wikipedia entries, news articles, and encyclopedic Q&A. It is designed to support research and applications in the field of Chinese NLP.
创建时间:
2019-05-21
原始信息汇总

数据集概述

数据集目标

  • 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
  • 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)

数据集更新

  • 增加高质量社区问答json版(webtext2019zh),410万个问答,适合训练超大规模NLP模型
  • 添加520万翻译语料(translation2019zh)

数据集内容

  1. 维基百科(wiki2019zh)

    • 包含100万个结构良好的中文词条
    • 数据结构:{"id":<id>,"url":<url>,"title":<title>,"text":<text>}
  2. 新闻语料(news2016zh)

    • 包含250万篇新闻,含关键词、描述
    • 数据结构:{news_id: <news_id>,title:<title>,content:<content>,source: <source>,time:<time>,keywords: <keywords>,desc: <desc>}
  3. 百科问答(baike2018qa)

    • 包含150万个带问题类型的问答
    • 数据结构:{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
  4. 社区问答json版(webtext2019zh)

    • 包含410万个高质量社区问答
    • 数据结构:{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
  5. 翻译语料(translation2019zh)

    • 包含520万个中英文平行语料
    • 数据结构:{"english": <english>, "chinese": <chinese>}

数据集用途

  • 用于训练词向量、预训练语料、构建知识问答、标题生成模型、关键词生成模型、话题预测模型、社区问答系统等。

数据集贡献

  • 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com
  • 贡献者将根据语料的质量和量级获得奖励。
搜集汇总
数据集介绍
main_image_url
构建方式
nlp_chinese_corpus数据集通过广泛收集互联网上的中文内容,包括维基百科、新闻、百科问答、社区问答以及翻译语料,构建了一个多样化的中文自然语言处理训练资源库。数据集的构建采用了自动化处理和人工审核相结合的方式,确保了语料的规模和质量。
特点
该数据集的特点在于其内容的多样性和高质量。涵盖了从维基百科到日常社区问答的各种中文语言风格和使用场景,提供了丰富的上下文信息,有助于模型理解和生成中文语言。此外,数据集经过了严格的去重和质量控制,确保了训练模型的效率和准确度。
使用方法
使用该数据集时,用户可以根据不同的需求和模型类型选择相应的子数据集。例如,维基百科数据适合于构建知识库和预训练语言模型;新闻语料可用于训练标题生成和关键词提取模型;百科和社区问答数据则适用于构建问答系统和进行话题预测。用户需要按照数据集提供的结构化格式进行读取和预处理,以便于后续的模型训练和评估。
背景与挑战
背景概述
nlp_chinese_corpus数据集是一款旨在推动中文自然语言处理领域发展的开源项目,创建于2019年。该项目由一系列中文语料库组成,包括维基百科、新闻、百科问答、社区问答和翻译语料,其核心研究问题是提供大规模、高质量的中文语料,以促进中文NLP技术的进步。项目由多个研究人员和机构共同维护,对中文信息处理领域产生了重要影响。
当前挑战
该数据集在构建过程中遇到的挑战包括:1)如何收集和整合大规模的中文语料资源;2)如何确保语料的多样性和高质量;3)如何处理语料中的噪声和错误。所解决的领域问题是中文自然语言处理中的数据稀缺性,特别是针对大规模、高质量的中文语料。这些挑战对于构建有效的NLP模型至关重要。
常用场景
经典使用场景
nlp_chinese_corpus作为中文自然语言处理领域的重要资源,其经典使用场景主要集中在训练和改进自然语言处理模型。例如,使用wiki2019zh进行词向量训练,以及采用webtext2019zh进行大规模模型的预训练,均为该数据集的经典应用。
实际应用
在实际应用中,nlp_chinese_corpus的数据被广泛应用于中文搜索引擎优化、智能客服系统构建、机器翻译服务等领域,显著提升了相关应用的性能和用户体验。
衍生相关工作
基于nlp_chinese_corpus的数据集,衍生出了一系列相关研究工作。包括但不限于构建高质量的中文词向量模型、开发高效的中文问答系统、以及提升中英翻译模型的准确性和流畅度。这些工作进一步推动了中文自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作