awesome-nlp-chinese-corpus

github2023-05-29 更新2024-05-31 收录

下载链接：

https://github.com/wangmuy/awesome-nlp-chinese-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个精心策划的中文自然语言处理语料收集列表，包含多个来源和类型的中文语料数据集。

A meticulously curated collection list of Chinese natural language processing corpora, encompassing datasets from various sources and types.

创建时间：

2017-08-31

原始信息汇总

数据集概述

综合内容

LDC.upenn.edu
- 出处: upenn.edu
- 语料大小: 各种
- 年代: 各种
CoNLL
- 出处: conll.org
- 语料大小: 各种
- 年代: 各种
维基百科中文
- 出处: wikimedia.org
- 语料大小: 各种
- 年代: 各种
microblogPCU
- 出处: ics.uci.edu
- 语料大小: 221k
- 年代: 2015
OpenSubtitles
- 出处: www.opensubtitles.org
- 语料大小: 各种
- 年代: 各种
北京大学开放研究数据平台
- 出处: opendata.pku.edu.cn
- 语料大小: 各种
- 年代: 各种
Multilingual ATIS
- 出处: 新加坡科技与设计大学 StatNLP
- 语料大小: 各种(英/中/印度)
- 年代: 2017
中文文本分类数据集 THUCNews
- 出处: 清华大学自然语言处理实验室
- 语料大小: 740k
- 年代: 2005-2011

NLPCC 会议数据集

NLPCC 2017
- 出处: 新闻头条分类 NLPCC 2017
- 语料大小: 200k
- 年代: 2017
NLPCC 2018
- 出处: NLPCC 2018
- 语料大小: 各种
- 年代: 2018

CCKS 会议数据集

CCKS 2019
- 出处: CCKS 2019
- 语料大小: 各种
- 年代: 2019
CCKS 2018
- 出处: CCKS 2018
- 语料大小: 各种
- 年代: 2018
CCKS 2017
- 出处: CCKS 2017
- 语料大小: 各种
- 年代: 2017

SMP 会议数据集

SMP 2018
- 出处: 用户画像 SMP2018, SMP-EUPT
- 语料大小: 28万
- 年代: 2018
SMP 2017
- 出处: CSDN用户画像 SMP2017, CSDN
- 语料大小: 10万
- 年代: 2017
SMP 2016
- 出处: 微博用户画像 SMP2016, 微博
- 语料大小: 4.6万
- 年代: 2016

其他数据集

WSDM杯 2019 假新闻分类
- 出处: WSDM Cup 2019
- 语料大小: 400k
- 年代: 2018
CMRC 2017
- 出处: ymcui/cmrc2017
- 语料大小: 364k
- 年代: 2017
CMRC 2018
- 出处: ymcui/cmrc2018
- 语料大小: 18k
- 年代: 2018
CMRC 2019
- 出处: ymcui/cmrc2019
- 语料大小: 100k
- 年代: 2019
京东商品评论
- 出处: yongfeng.me/dataset
- 语料大小: 6000万
- 年代: 2014
大众点评评论
- 出处: yongfeng.me/dataset
- 语料大小: 360万
- 年代: 2014
英中翻译数据集2018
- 出处: challenger.ai
- 语料大小: 1300万
- 年代: 2018
细粒度用户评论情感分析数据集2018
- 出处: challenger.ai
- 语料大小: 20万
- 年代: 2018
观点型问题阅读理解数据集2018
- 出处: challenger.ai
- 语料大小: 25万
- 年代: 2018
搜狗实验室
- 出处: sogou.com
- 语料大小: 免费小样本
- 年代: 2012
玻森中文语义开放平台
- 出处: bosonnlp.com
- 语料大小: 中小
- 年代: 2014-2015
中文开放知识图谱
- 出处: openkg.cn
- 语料大小: 各种
- 年代: 各种
biendata.com 数据竞赛
- 出处: biendata.com
- 语料大小: 各种
- 年代: 各种
2018搜狐内容识别算法大赛新闻和新闻配图
- 出处: biendata.com, 搜狐
- 语料大小: 百万级
- 年代: 2018
成语阅读理解大赛
- 出处: biendata.com
- 语料大小: 未知
- 年代: 2019
文本分类语料库（复旦）测试语料
- 出处: nlpir.org
- 语料大小: ~2万
- 年代: 2011
DuReader Dataset
- 出处: baidu
- 语料大小: 950k
- 年代: 2017
golden-horse 微博命名实体识别
- 出处: jhu.edu
- 语料大小: 19k
- 年代: 2015
Douban Conversation Corpus 豆瓣多轮对话
- 出处: github.com/MarkWuNLP
- 语料大小: 1000k
- 年代: 2017
我爱自然语言处理-新闻语料库
- 出处: 52nlp.cn
- 语料大小: 39k
- 年代: 2010
awesome-chinese-nlp
- 出处: github.com/crownpku
- 语料大小: 各种
- 年代: 各种
Small-Chinese-Corpus
- 出处: github.com/crownpku
- 语料大小: 小
- 年代: 各种
中文对白语料小黄鸡/射手等
- 出处: github.com/fateleak
- 语料大小: 未知
- 年代: 2016
微信公众号语料库
- 出处: github.com/nonamestreet
- 语料大小: 3G
- 年代: 未知
白鹭时代中文问答
- 出处: github.com/Samurais
- 语料大小: 小
- 年代: 2016
保险行业语料库
- 出处: github.com/Samurais
- 语料大小: 小
- 年代: 未知
Erheng Zhong 豆瓣电影
- 出处: erhengzhong
- 语料大小: 未知
- 年代: 2010-2012
中华古诗词数据库
- 出处: chinese-poetry/chinese-poetry
- 语料大小: 5.5万首唐诗、26万首宋诗和2.1万首宋词
- 年代: 唐宋
公司名语料库
- 出处: wainshine/Company-Names-Corpus
- 语料大小: 480万
- 年代: 2018
人民日报, 儿童寓言故事
- 出处: ymcui/Chinese-Cloze-RC
- 语料大小: 87万
- 年代: 未知
人民日报 NER
- 出处: Determined22/zh-NER-TF
- 语料大小: 5万
- 年代: 1998
新闻语料json版
- 出处: brightmart/nlp_chinese_corpus
- 语料大小: 250万
- 年代: 2016
百科类问答json版
- 出处: brightmart/nlp_chinese_corpus
- 语料大小: 150万
- 年代: 2016
社区问答json版
- 出处: brightmart/nlp_chinese_corpus
- 语料大小: 410万
- 年代: 2016
小说: 斗破苍穹
- 出处: GaoPeng97/transformer-xl-chinese
- 语料大小: 410万
- 年代: 2011
台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)
- 出处: DRCKnowledgeTeam/DRCD
- 语料大小: 3万
- 年代: 2018
Chinese IDiom Dataset 成语
- 出处: zhengcj1/ChID-Dataset
- 语料大小: 729k
- 年代: 2019
豆瓣短影评
- 出处: kaggle.com/utmhikari
- 语料大小: 200万
- 年代: 2017
知乎热榜Top50
- 出处: kesci.com
- 语料大小: 未知
- 年代: 2019
豆瓣长安十二时辰500条评论
- 出处: github.com/DongDongGe1
- 语料大小: 500
- 年代: 2019
豆瓣读书数据集
- 出处: zhihu.com/people/sgai
- 语料大小: 6万
- 年代: 2019
去哪儿网—数据清洗
- 出处: kesci.com
- 语料大小: 未知
- 年代: 2019
今日头条中文新闻（文本）分类数据集
- 出处: github.com/fate233
- 语料大小: 38万
- 年代: 2018
豆瓣电影数据集
- 出处: kesci.com
- 语料大小: 未知
- 年代: 2011-2016
bilibili流行动漫影评数据
- 出处: kaggle.com
- 语料大小: 19.1k
- 年代: 2019
中国文学文本数据集
- 出处: github.com/lancopku
- 语料大小: 未知
- 年代: 2018
《中餐厅3》19W弹幕数据
- 出处: kesci.com
- 语料大小: 19W
- 年代: 2019
中文新闻数据集
- 出处: kaggle.com
- 语料大小: 143k
- 年代: 2019
豆瓣《哪吒之魔童降世》影评
- 出处: kesci.com
- 语料大小: 未知
- 年代: 2019

Embedding 词嵌入

Embedding/Chinese-Word-Vectors
- 模型: word2vec/fasttext
- 语料大小: 各种
- 嵌入大小: 各种
Kyubyong/wordvectors
- 模型: word2vec
- 语料大小: 50101
- 嵌入大小: 300
fastText
- 模型: fastText
- 语料大小: 简中332647
- 嵌入大小: 300
BPEmb
- 模型: BPE
- 语料大小: 各种
- 嵌入大小: 各种
腾讯AI实验室中文词向量数据集
- 模型: DSG
- 语料大小: 800多万
- 嵌入大小: 200

Pre-trained Language Models 预训练语言模型

RoBERTa中文预训练模型
- 模型: RoBERTa
- 语料大小: 近3亿个句子，100亿个中文字
- 特点: 6层/12层/24层

搜集汇总

数据集介绍

构建方式

awesome-nlp-chinese-corpus 数据集通过整合多个公开的中文自然语言处理语料资源构建而成。其来源广泛，涵盖了维基百科、新闻语料、社交媒体评论、学术会议数据集等多个领域。数据集的构建过程依赖于社区贡献，用户可以通过提交 Pull Request 来扩展和更新语料库。这种开放式的构建方式确保了数据集的多样性和时效性，同时也为研究者提供了丰富的语料选择。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从新闻、社交媒体到学术会议等多个领域的语料。语料的时间跨度较大，从早期的2005年到近期的2019年均有覆盖，且语料规模从几千条到数百万条不等。此外，数据集还包含了多种任务类型的数据，如文本分类、命名实体识别、机器阅读理解等，能够满足不同自然语言处理任务的需求。

使用方法

使用该数据集时，研究者可以根据具体任务需求选择合适的语料子集。数据集中的每个语料条目均标注了出处、语料大小和年代，便于用户快速筛选。对于预训练模型的研究，可以选择大规模的新闻或社交媒体语料；而对于特定任务如情感分析或命名实体识别，则可以选择相应的标注数据集。此外，用户还可以通过 GitHub 提交新的语料资源，进一步丰富数据集的内容。

背景与挑战

背景概述

awesome-nlp-chinese-corpus 是一个专门为中文自然语言处理（NLP）研究而设计的语料库集合，涵盖了从新闻、社交媒体到文学作品等多种类型的中文文本数据。该数据集由多个研究机构和开源社区共同维护，旨在为中文NLP领域的研究者提供丰富的数据资源。自2010年以来，随着中文NLP研究的快速发展，该数据集不断扩展，涵盖了从基础的文本分类到复杂的机器阅读理解等多个任务。其影响力不仅体现在学术研究中，还在工业界的实际应用中得到了广泛验证。

当前挑战

awesome-nlp-chinese-corpus 面临的挑战主要体现在两个方面。首先，中文语言的复杂性和多样性使得数据集的构建和标注变得尤为困难，尤其是在处理多义词、方言和网络用语时，如何确保数据的准确性和一致性是一个巨大的挑战。其次，数据集的规模和多样性虽然为研究提供了丰富的资源，但也带来了数据管理和处理的复杂性，尤其是在跨领域、跨任务的应用中，如何有效地整合和利用这些数据仍然是一个亟待解决的问题。此外，数据集的更新和维护也需要持续的投入，以确保其能够跟上中文语言和技术的快速发展。

常用场景

经典使用场景

awesome-nlp-chinese-corpus数据集广泛应用于中文自然语言处理（NLP）领域的研究与开发。该数据集涵盖了从新闻、社交媒体、文学作品到专业领域的多种语料，为研究者提供了丰富的语言资源。其经典使用场景包括文本分类、情感分析、命名实体识别、机器翻译和问答系统等任务。通过整合多个来源的语料，该数据集为中文NLP模型的训练和评估提供了多样化的数据支持。

衍生相关工作

基于awesome-nlp-chinese-corpus数据集，研究者们开展了多项经典工作。例如，清华大学自然语言处理实验室利用该数据集中的THUCNews语料，开发了高效的中文文本分类模型。此外，百度基于该数据集中的DuReader语料，推出了中文机器阅读理解系统，显著提升了中文问答系统的性能。其他衍生工作还包括基于该数据集的情感分析模型、命名实体识别系统以及中文预训练语言模型（如RoBERTa中文版），这些工作极大地推动了中文NLP技术的发展。

数据集最近研究