awesome-nlp-chinese-corpus
收藏数据集概述
综合内容
-
LDC.upenn.edu
- 出处: upenn.edu
- 语料大小: 各种
- 年代: 各种
-
CoNLL
- 出处: conll.org
- 语料大小: 各种
- 年代: 各种
-
维基百科中文
- 出处: wikimedia.org
- 语料大小: 各种
- 年代: 各种
-
microblogPCU
- 出处: ics.uci.edu
- 语料大小: 221k
- 年代: 2015
-
OpenSubtitles
- 出处: www.opensubtitles.org
- 语料大小: 各种
- 年代: 各种
-
北京大学开放研究数据平台
- 出处: opendata.pku.edu.cn
- 语料大小: 各种
- 年代: 各种
-
Multilingual ATIS
- 出处: 新加坡科技与设计大学 StatNLP
- 语料大小: 各种(英/中/印度)
- 年代: 2017
-
中文文本分类数据集 THUCNews
- 出处: 清华大学自然语言处理实验室
- 语料大小: 740k
- 年代: 2005-2011
NLPCC 会议数据集
-
NLPCC 2017
- 出处: 新闻头条分类 NLPCC 2017
- 语料大小: 200k
- 年代: 2017
-
NLPCC 2018
- 出处: NLPCC 2018
- 语料大小: 各种
- 年代: 2018
CCKS 会议数据集
-
CCKS 2019
- 出处: CCKS 2019
- 语料大小: 各种
- 年代: 2019
-
CCKS 2018
- 出处: CCKS 2018
- 语料大小: 各种
- 年代: 2018
-
CCKS 2017
- 出处: CCKS 2017
- 语料大小: 各种
- 年代: 2017
SMP 会议数据集
-
SMP 2018
- 出处: 用户画像 SMP2018, SMP-EUPT
- 语料大小: 28万
- 年代: 2018
-
SMP 2017
- 出处: CSDN用户画像 SMP2017, CSDN
- 语料大小: 10万
- 年代: 2017
-
SMP 2016
- 出处: 微博用户画像 SMP2016, 微博
- 语料大小: 4.6万
- 年代: 2016
其他数据集
-
WSDM杯 2019 假新闻分类
- 出处: WSDM Cup 2019
- 语料大小: 400k
- 年代: 2018
-
CMRC 2017
- 出处: ymcui/cmrc2017
- 语料大小: 364k
- 年代: 2017
-
CMRC 2018
- 出处: ymcui/cmrc2018
- 语料大小: 18k
- 年代: 2018
-
CMRC 2019
- 出处: ymcui/cmrc2019
- 语料大小: 100k
- 年代: 2019
-
京东商品评论
- 出处: yongfeng.me/dataset
- 语料大小: 6000万
- 年代: 2014
-
大众点评评论
- 出处: yongfeng.me/dataset
- 语料大小: 360万
- 年代: 2014
-
英中翻译数据集2018
- 出处: challenger.ai
- 语料大小: 1300万
- 年代: 2018
-
细粒度用户评论情感分析数据集2018
- 出处: challenger.ai
- 语料大小: 20万
- 年代: 2018
-
观点型问题阅读理解数据集2018
- 出处: challenger.ai
- 语料大小: 25万
- 年代: 2018
-
搜狗实验室
- 出处: sogou.com
- 语料大小: 免费小样本
- 年代: 2012
-
玻森中文语义开放平台
- 出处: bosonnlp.com
- 语料大小: 中小
- 年代: 2014-2015
-
中文开放知识图谱
- 出处: openkg.cn
- 语料大小: 各种
- 年代: 各种
-
biendata.com 数据竞赛
- 出处: biendata.com
- 语料大小: 各种
- 年代: 各种
-
2018搜狐内容识别算法大赛 新闻和新闻配图
- 出处: biendata.com, 搜狐
- 语料大小: 百万级
- 年代: 2018
-
成语阅读理解大赛
- 出处: biendata.com
- 语料大小: 未知
- 年代: 2019
-
文本分类语料库(复旦)测试语料
- 出处: nlpir.org
- 语料大小: ~2万
- 年代: 2011
-
DuReader Dataset
- 出处: baidu
- 语料大小: 950k
- 年代: 2017
-
golden-horse 微博命名实体识别
- 出处: jhu.edu
- 语料大小: 19k
- 年代: 2015
-
Douban Conversation Corpus 豆瓣多轮对话
- 出处: github.com/MarkWuNLP
- 语料大小: 1000k
- 年代: 2017
-
我爱自然语言处理-新闻语料库
- 出处: 52nlp.cn
- 语料大小: 39k
- 年代: 2010
-
awesome-chinese-nlp
- 出处: github.com/crownpku
- 语料大小: 各种
- 年代: 各种
-
Small-Chinese-Corpus
- 出处: github.com/crownpku
- 语料大小: 小
- 年代: 各种
-
中文对白语料 小黄鸡/射手 等
- 出处: github.com/fateleak
- 语料大小: 未知
- 年代: 2016
-
微信公众号语料库
- 出处: github.com/nonamestreet
- 语料大小: 3G
- 年代: 未知
-
白鹭时代中文问答
- 出处: github.com/Samurais
- 语料大小: 小
- 年代: 2016
-
保险行业语料库
- 出处: github.com/Samurais
- 语料大小: 小
- 年代: 未知
-
Erheng Zhong 豆瓣电影
- 出处: erhengzhong
- 语料大小: 未知
- 年代: 2010-2012
-
中华古诗词数据库
- 出处: chinese-poetry/chinese-poetry
- 语料大小: 5.5万首唐诗、26万首宋诗和2.1万首宋词
- 年代: 唐宋
-
公司名语料库
- 出处: wainshine/Company-Names-Corpus
- 语料大小: 480万
- 年代: 2018
-
人民日报, 儿童寓言故事
- 出处: ymcui/Chinese-Cloze-RC
- 语料大小: 87万
- 年代: 未知
-
人民日报 NER
- 出处: Determined22/zh-NER-TF
- 语料大小: 5万
- 年代: 1998
-
新闻语料json版
- 出处: brightmart/nlp_chinese_corpus
- 语料大小: 250万
- 年代: 2016
-
百科类问答json版
- 出处: brightmart/nlp_chinese_corpus
- 语料大小: 150万
- 年代: 2016
-
社区问答json版
- 出处: brightmart/nlp_chinese_corpus
- 语料大小: 410万
- 年代: 2016
-
小说: 斗破苍穹
- 出处: GaoPeng97/transformer-xl-chinese
- 语料大小: 410万
- 年代: 2011
-
台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)
- 出处: DRCKnowledgeTeam/DRCD
- 语料大小: 3万
- 年代: 2018
-
Chinese IDiom Dataset 成语
- 出处: zhengcj1/ChID-Dataset
- 语料大小: 729k
- 年代: 2019
-
豆瓣短影评
- 出处: kaggle.com/utmhikari
- 语料大小: 200万
- 年代: 2017
-
知乎热榜Top50
- 出处: kesci.com
- 语料大小: 未知
- 年代: 2019
-
豆瓣长安十二时辰500条评论
- 出处: github.com/DongDongGe1
- 语料大小: 500
- 年代: 2019
-
豆瓣读书数据集
- 出处: zhihu.com/people/sgai
- 语料大小: 6万
- 年代: 2019
-
去哪儿网—数据清洗
- 出处: kesci.com
- 语料大小: 未知
- 年代: 2019
-
今日头条中文新闻(文本)分类数据集
- 出处: github.com/fate233
- 语料大小: 38万
- 年代: 2018
-
豆瓣电影数据集
- 出处: kesci.com
- 语料大小: 未知
- 年代: 2011-2016
-
bilibili流行动漫影评数据
- 出处: kaggle.com
- 语料大小: 19.1k
- 年代: 2019
-
中国文学文本数据集
- 出处: github.com/lancopku
- 语料大小: 未知
- 年代: 2018
-
《中餐厅3》19W弹幕数据
- 出处: kesci.com
- 语料大小: 19W
- 年代: 2019
-
中文新闻数据集
- 出处: kaggle.com
- 语料大小: 143k
- 年代: 2019
-
豆瓣《哪吒之魔童降世》影评
- 出处: kesci.com
- 语料大小: 未知
- 年代: 2019
Embedding 词嵌入
-
Embedding/Chinese-Word-Vectors
- 模型: word2vec/fasttext
- 语料大小: 各种
- 嵌入大小: 各种
-
Kyubyong/wordvectors
- 模型: word2vec
- 语料大小: 50101
- 嵌入大小: 300
-
fastText
- 模型: fastText
- 语料大小: 简中332647
- 嵌入大小: 300
-
BPEmb
- 模型: BPE
- 语料大小: 各种
- 嵌入大小: 各种
-
腾讯AI实验室 中文词向量数据集
- 模型: DSG
- 语料大小: 800多万
- 嵌入大小: 200
Pre-trained Language Models 预训练语言模型
- RoBERTa中文预训练模型
- 模型: RoBERTa
- 语料大小: 近3亿个句子,100亿个中文字
- 特点: 6层/12层/24层




