five

awesome-nlp-chinese-corpus

收藏
github2023-05-29 更新2024-05-31 收录
下载链接:
https://github.com/wangmuy/awesome-nlp-chinese-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
一个精心策划的中文自然语言处理语料收集列表,包含多个来源和类型的中文语料数据集。

A meticulously curated collection list of Chinese natural language processing corpora, encompassing datasets from various sources and types.
创建时间:
2017-08-31
原始信息汇总

数据集概述

综合内容

  1. LDC.upenn.edu

    • 出处: upenn.edu
    • 语料大小: 各种
    • 年代: 各种
  2. CoNLL

    • 出处: conll.org
    • 语料大小: 各种
    • 年代: 各种
  3. 维基百科中文

    • 出处: wikimedia.org
    • 语料大小: 各种
    • 年代: 各种
  4. microblogPCU

    • 出处: ics.uci.edu
    • 语料大小: 221k
    • 年代: 2015
  5. OpenSubtitles

    • 出处: www.opensubtitles.org
    • 语料大小: 各种
    • 年代: 各种
  6. 北京大学开放研究数据平台

    • 出处: opendata.pku.edu.cn
    • 语料大小: 各种
    • 年代: 各种
  7. Multilingual ATIS

    • 出处: 新加坡科技与设计大学 StatNLP
    • 语料大小: 各种(英/中/印度)
    • 年代: 2017
  8. 中文文本分类数据集 THUCNews

    • 出处: 清华大学自然语言处理实验室
    • 语料大小: 740k
    • 年代: 2005-2011

NLPCC 会议数据集

  1. NLPCC 2017

    • 出处: 新闻头条分类 NLPCC 2017
    • 语料大小: 200k
    • 年代: 2017
  2. NLPCC 2018

    • 出处: NLPCC 2018
    • 语料大小: 各种
    • 年代: 2018

CCKS 会议数据集

  1. CCKS 2019

    • 出处: CCKS 2019
    • 语料大小: 各种
    • 年代: 2019
  2. CCKS 2018

    • 出处: CCKS 2018
    • 语料大小: 各种
    • 年代: 2018
  3. CCKS 2017

    • 出处: CCKS 2017
    • 语料大小: 各种
    • 年代: 2017

SMP 会议数据集

  1. SMP 2018

    • 出处: 用户画像 SMP2018, SMP-EUPT
    • 语料大小: 28万
    • 年代: 2018
  2. SMP 2017

    • 出处: CSDN用户画像 SMP2017, CSDN
    • 语料大小: 10万
    • 年代: 2017
  3. SMP 2016

    • 出处: 微博用户画像 SMP2016, 微博
    • 语料大小: 4.6万
    • 年代: 2016

其他数据集

  1. WSDM杯 2019 假新闻分类

    • 出处: WSDM Cup 2019
    • 语料大小: 400k
    • 年代: 2018
  2. CMRC 2017

    • 出处: ymcui/cmrc2017
    • 语料大小: 364k
    • 年代: 2017
  3. CMRC 2018

    • 出处: ymcui/cmrc2018
    • 语料大小: 18k
    • 年代: 2018
  4. CMRC 2019

    • 出处: ymcui/cmrc2019
    • 语料大小: 100k
    • 年代: 2019
  5. 京东商品评论

    • 出处: yongfeng.me/dataset
    • 语料大小: 6000万
    • 年代: 2014
  6. 大众点评评论

    • 出处: yongfeng.me/dataset
    • 语料大小: 360万
    • 年代: 2014
  7. 英中翻译数据集2018

    • 出处: challenger.ai
    • 语料大小: 1300万
    • 年代: 2018
  8. 细粒度用户评论情感分析数据集2018

    • 出处: challenger.ai
    • 语料大小: 20万
    • 年代: 2018
  9. 观点型问题阅读理解数据集2018

    • 出处: challenger.ai
    • 语料大小: 25万
    • 年代: 2018
  10. 搜狗实验室

    • 出处: sogou.com
    • 语料大小: 免费小样本
    • 年代: 2012
  11. 玻森中文语义开放平台

    • 出处: bosonnlp.com
    • 语料大小: 中小
    • 年代: 2014-2015
  12. 中文开放知识图谱

    • 出处: openkg.cn
    • 语料大小: 各种
    • 年代: 各种
  13. biendata.com 数据竞赛

    • 出处: biendata.com
    • 语料大小: 各种
    • 年代: 各种
  14. 2018搜狐内容识别算法大赛 新闻和新闻配图

    • 出处: biendata.com, 搜狐
    • 语料大小: 百万级
    • 年代: 2018
  15. 成语阅读理解大赛

    • 出处: biendata.com
    • 语料大小: 未知
    • 年代: 2019
  16. 文本分类语料库(复旦)测试语料

    • 出处: nlpir.org
    • 语料大小: ~2万
    • 年代: 2011
  17. DuReader Dataset

    • 出处: baidu
    • 语料大小: 950k
    • 年代: 2017
  18. golden-horse 微博命名实体识别

    • 出处: jhu.edu
    • 语料大小: 19k
    • 年代: 2015
  19. Douban Conversation Corpus 豆瓣多轮对话

    • 出处: github.com/MarkWuNLP
    • 语料大小: 1000k
    • 年代: 2017
  20. 我爱自然语言处理-新闻语料库

    • 出处: 52nlp.cn
    • 语料大小: 39k
    • 年代: 2010
  21. awesome-chinese-nlp

    • 出处: github.com/crownpku
    • 语料大小: 各种
    • 年代: 各种
  22. Small-Chinese-Corpus

    • 出处: github.com/crownpku
    • 语料大小: 小
    • 年代: 各种
  23. 中文对白语料 小黄鸡/射手 等

    • 出处: github.com/fateleak
    • 语料大小: 未知
    • 年代: 2016
  24. 微信公众号语料库

    • 出处: github.com/nonamestreet
    • 语料大小: 3G
    • 年代: 未知
  25. 白鹭时代中文问答

    • 出处: github.com/Samurais
    • 语料大小: 小
    • 年代: 2016
  26. 保险行业语料库

    • 出处: github.com/Samurais
    • 语料大小: 小
    • 年代: 未知
  27. Erheng Zhong 豆瓣电影

    • 出处: erhengzhong
    • 语料大小: 未知
    • 年代: 2010-2012
  28. 中华古诗词数据库

    • 出处: chinese-poetry/chinese-poetry
    • 语料大小: 5.5万首唐诗、26万首宋诗和2.1万首宋词
    • 年代: 唐宋
  29. 公司名语料库

    • 出处: wainshine/Company-Names-Corpus
    • 语料大小: 480万
    • 年代: 2018
  30. 人民日报, 儿童寓言故事

    • 出处: ymcui/Chinese-Cloze-RC
    • 语料大小: 87万
    • 年代: 未知
  31. 人民日报 NER

    • 出处: Determined22/zh-NER-TF
    • 语料大小: 5万
    • 年代: 1998
  32. 新闻语料json版

    • 出处: brightmart/nlp_chinese_corpus
    • 语料大小: 250万
    • 年代: 2016
  33. 百科类问答json版

    • 出处: brightmart/nlp_chinese_corpus
    • 语料大小: 150万
    • 年代: 2016
  34. 社区问答json版

    • 出处: brightmart/nlp_chinese_corpus
    • 语料大小: 410万
    • 年代: 2016
  35. 小说: 斗破苍穹

    • 出处: GaoPeng97/transformer-xl-chinese
    • 语料大小: 410万
    • 年代: 2011
  36. 台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)

    • 出处: DRCKnowledgeTeam/DRCD
    • 语料大小: 3万
    • 年代: 2018
  37. Chinese IDiom Dataset 成语

    • 出处: zhengcj1/ChID-Dataset
    • 语料大小: 729k
    • 年代: 2019
  38. 豆瓣短影评

    • 出处: kaggle.com/utmhikari
    • 语料大小: 200万
    • 年代: 2017
  39. 知乎热榜Top50

    • 出处: kesci.com
    • 语料大小: 未知
    • 年代: 2019
  40. 豆瓣长安十二时辰500条评论

    • 出处: github.com/DongDongGe1
    • 语料大小: 500
    • 年代: 2019
  41. 豆瓣读书数据集

    • 出处: zhihu.com/people/sgai
    • 语料大小: 6万
    • 年代: 2019
  42. 去哪儿网—数据清洗

    • 出处: kesci.com
    • 语料大小: 未知
    • 年代: 2019
  43. 今日头条中文新闻(文本)分类数据集

    • 出处: github.com/fate233
    • 语料大小: 38万
    • 年代: 2018
  44. 豆瓣电影数据集

    • 出处: kesci.com
    • 语料大小: 未知
    • 年代: 2011-2016
  45. bilibili流行动漫影评数据

    • 出处: kaggle.com
    • 语料大小: 19.1k
    • 年代: 2019
  46. 中国文学文本数据集

    • 出处: github.com/lancopku
    • 语料大小: 未知
    • 年代: 2018
  47. 《中餐厅3》19W弹幕数据

    • 出处: kesci.com
    • 语料大小: 19W
    • 年代: 2019
  48. 中文新闻数据集

    • 出处: kaggle.com
    • 语料大小: 143k
    • 年代: 2019
  49. 豆瓣《哪吒之魔童降世》影评

    • 出处: kesci.com
    • 语料大小: 未知
    • 年代: 2019

Embedding 词嵌入

  1. Embedding/Chinese-Word-Vectors

    • 模型: word2vec/fasttext
    • 语料大小: 各种
    • 嵌入大小: 各种
  2. Kyubyong/wordvectors

    • 模型: word2vec
    • 语料大小: 50101
    • 嵌入大小: 300
  3. fastText

    • 模型: fastText
    • 语料大小: 简中332647
    • 嵌入大小: 300
  4. BPEmb

    • 模型: BPE
    • 语料大小: 各种
    • 嵌入大小: 各种
  5. 腾讯AI实验室 中文词向量数据集

    • 模型: DSG
    • 语料大小: 800多万
    • 嵌入大小: 200

Pre-trained Language Models 预训练语言模型

  1. RoBERTa中文预训练模型
    • 模型: RoBERTa
    • 语料大小: 近3亿个句子,100亿个中文字
    • 特点: 6层/12层/24层
搜集汇总
数据集介绍
main_image_url
构建方式
awesome-nlp-chinese-corpus 数据集通过整合多个公开的中文自然语言处理语料资源构建而成。其来源广泛,涵盖了维基百科、新闻语料、社交媒体评论、学术会议数据集等多个领域。数据集的构建过程依赖于社区贡献,用户可以通过提交 Pull Request 来扩展和更新语料库。这种开放式的构建方式确保了数据集的多样性和时效性,同时也为研究者提供了丰富的语料选择。
特点
该数据集的特点在于其多样性和广泛性,涵盖了从新闻、社交媒体到学术会议等多个领域的语料。语料的时间跨度较大,从早期的2005年到近期的2019年均有覆盖,且语料规模从几千条到数百万条不等。此外,数据集还包含了多种任务类型的数据,如文本分类、命名实体识别、机器阅读理解等,能够满足不同自然语言处理任务的需求。
使用方法
使用该数据集时,研究者可以根据具体任务需求选择合适的语料子集。数据集中的每个语料条目均标注了出处、语料大小和年代,便于用户快速筛选。对于预训练模型的研究,可以选择大规模的新闻或社交媒体语料;而对于特定任务如情感分析或命名实体识别,则可以选择相应的标注数据集。此外,用户还可以通过 GitHub 提交新的语料资源,进一步丰富数据集的内容。
背景与挑战
背景概述
awesome-nlp-chinese-corpus 是一个专门为中文自然语言处理(NLP)研究而设计的语料库集合,涵盖了从新闻、社交媒体到文学作品等多种类型的中文文本数据。该数据集由多个研究机构和开源社区共同维护,旨在为中文NLP领域的研究者提供丰富的数据资源。自2010年以来,随着中文NLP研究的快速发展,该数据集不断扩展,涵盖了从基础的文本分类到复杂的机器阅读理解等多个任务。其影响力不仅体现在学术研究中,还在工业界的实际应用中得到了广泛验证。
当前挑战
awesome-nlp-chinese-corpus 面临的挑战主要体现在两个方面。首先,中文语言的复杂性和多样性使得数据集的构建和标注变得尤为困难,尤其是在处理多义词、方言和网络用语时,如何确保数据的准确性和一致性是一个巨大的挑战。其次,数据集的规模和多样性虽然为研究提供了丰富的资源,但也带来了数据管理和处理的复杂性,尤其是在跨领域、跨任务的应用中,如何有效地整合和利用这些数据仍然是一个亟待解决的问题。此外,数据集的更新和维护也需要持续的投入,以确保其能够跟上中文语言和技术的快速发展。
常用场景
经典使用场景
awesome-nlp-chinese-corpus数据集广泛应用于中文自然语言处理(NLP)领域的研究与开发。该数据集涵盖了从新闻、社交媒体、文学作品到专业领域的多种语料,为研究者提供了丰富的语言资源。其经典使用场景包括文本分类、情感分析、命名实体识别、机器翻译和问答系统等任务。通过整合多个来源的语料,该数据集为中文NLP模型的训练和评估提供了多样化的数据支持。
衍生相关工作
基于awesome-nlp-chinese-corpus数据集,研究者们开展了多项经典工作。例如,清华大学自然语言处理实验室利用该数据集中的THUCNews语料,开发了高效的中文文本分类模型。此外,百度基于该数据集中的DuReader语料,推出了中文机器阅读理解系统,显著提升了中文问答系统的性能。其他衍生工作还包括基于该数据集的情感分析模型、命名实体识别系统以及中文预训练语言模型(如RoBERTa中文版),这些工作极大地推动了中文NLP技术的发展。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的飞速发展,中文语料库的研究方向逐渐从传统的文本分类、命名实体识别等基础任务,转向了更为复杂的多模态理解、情感分析、对话生成等领域。特别是在预训练语言模型的推动下,如RoBERTa等模型的出现,极大提升了中文文本的理解与生成能力。此外,随着社交媒体和电商平台的兴起,用户生成内容(UGC)的分析成为了研究热点,如情感分析、用户画像构建等任务,这些研究不仅推动了自然语言处理技术的进步,也为商业应用提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作