CLUEDatasetSearch
收藏数据集概述
命名实体识别(NER)
-
数据集ID 1: CCKS2017中文电子病例命名实体识别
- 提供者: 北京极目云健康科技有限公司
- 数据来源: 云医院平台的真实电子病历数据,800条
- 语言: 中文
-
数据集ID 2: CCKS2018中文电子病例命名实体识别
- 提供者: 医渡云(北京)技术有限公司
- 数据量: 600份标注好的电子病历文本
- 语言: 中文
-
数据集ID 3: 微软亚研院MSRA命名实体识别识别数据集
- 提供者: MSRA
- 数据量: 46365条语料
- 语言: 中文
-
数据集ID 4: 1998人民日报语料集实体识别标注集
- 提供者: 人民日报
- 数据量: 23061条语料
- 语言: 中文
-
数据集ID 5: Boson
- 提供者: 玻森数据
- 数据量: 2000条语料
- 语言: 中文
-
数据集ID 6: CLUE Fine-Grain NER
- 提供者: CLUE
- 数据量: 训练集10748条,验证集1343条
- 语言: 中文
-
数据集ID 7: CoNLL-2003
- 提供者: CNTS - Language Technology Group
- 数据量: 包含PER, LOC, ORG和MISC四个类别
- 语言: 英文
-
数据集ID 8: 微博实体识别
- 提供者: https://github.com/hltcoe/golden-horse
- 语言: 中文
-
数据集ID 9: SIGHAN Bakeoff 2005
- 提供者: MSR/PKU
- 语言: 中文
问答(QA)
-
数据集ID 1: NewsQA
- 提供者: 微软研究院
- 数据量: 超过12000篇新闻文章和120,000答案
- 语言: 英文
-
数据集ID 2: SQuAD
- 提供者: 斯坦福
- 数据量: 由维基百科的一组文章上提出的问题组成
- 语言: 英文
-
数据集ID 3: SimpleQuestions
- 提供者: Facebook
- 数据量: 100K简单问题的回答
- 语言: 英文
-
数据集ID 4: WikiQA
- 提供者: 微软研究院
- 数据量: 3047个问题和29258个句子
- 语言: 英文
-
数据集ID 5: cMedQA
- 提供者: Zhang Sheng
- 数据量: 5.4万个问题,及对应的约10万个回答
- 语言: 中文
-
数据集ID 6: cMedQA2
- 提供者: Zhang Sheng
- 数据量: 约10万个医学相关问题,及对应的约20万个回答
- 语言: 中文
-
数据集ID 7: webMedQA
- 提供者: He Junqing
- 数据量: 6万个问题和31万个回答
- 语言: 中文
-
数据集ID 8: XQA
- 提供者: 清华大学
- 数据量: 9万多个问答,跨语言
- 语言: 多语言
-
数据集ID 9: AmazonQA
- 提供者: 亚马逊
- 数据量: 基于评论的QA模型任务
- 语言: 英文
情感分析
-
数据集ID 1: NLPCC2013
- 提供者: CCF
- 数据量: 14 000 条微博, 45 431句子
- 语言: 中文
-
数据集ID 2: NLPCC2014 Task1
- 提供者: CCF
- 数据量: 20000条微博
- 语言: 中文
-
数据集ID 3: NLPCC2014 Task2
- 提供者: CCF
- 数据量: 微博语料,标注了正面和负面
- 语言: 中文
-
数据集ID 4: Weibo Emotion Corpus
- 提供者: The Hong Kong Polytechnic University
- 数据量: 四万多条微博
- 语言: 中文
-
数据集ID 5: RenCECPs
- 提供者: Fuji Ren
- 数据量: 1500个博客,11000段落和35000句子
- 语言: 中文
-
数据集ID 6: weibo_senti_100k
- 提供者: 不详
- 数据量: 正负向评论约各 5 万条
- 语言: 中文
-
数据集ID 7: BDCI2018-汽车行业用户观点主题及情感识别
- 提供者: CCF
- 数据量: 汽车论坛中对汽车的评论
- 语言: 中文
-
数据集ID 8: AI Challenger 细粒度用户评论情感分析
- 提供者: 美团
- 数据量: 餐饮评论,6个一级属性,20个二级属性
- 语言: 中文
-
数据集ID 9: BDCI2019金融信息负面及主体判定
- 提供者: 中原银行
- 数据量: 金融领域新闻,每个样本标记了实体列表以及负面实体列表
- 语言: 中文
-
数据集ID 10: 之江杯电商评论观点挖掘大赛
- 提供者: 之江实验室
- 数据量: 商品评论中抽取商品属性特征和消费者观点
- 语言: 中文
-
数据集ID 11: 2019搜狐校园算法大赛
- 提供者: 搜狐
- 数据量: 给定若干文章,判断文章的核心实体以及对核心实体的情感态度
- 语言: 中文
文本分类
-
数据集ID 1: 2018“达观杯”文本智能处理挑战赛
- 提供者: 达观数据
- 数据量: 102275条样本,19个类别
- 语言: 中文
-
数据集ID 2: 今日头条中文新闻(文本)分类
- 提供者: 今日头条
- 数据量: 382688条样本,15个类别
- 语言: 中文
-
数据集ID 3: THUCNews中文文本分类
- 提供者: 清华大学
- 数据量: 74万篇新闻文档,14个类别
- 语言: 中文
-
数据集ID 4: 复旦大学中文文本分类
- 提供者: 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组
- 数据量: 9804篇文档,20个类别
- 语言: 中文
-
数据集ID 5: 新闻标题短文本分类
- 提供者: chenfengshf
- 数据量: 38w条样本,15个类别
- 语言: 中文
-
数据集ID 6: 2017 知乎看山杯机器学习挑战赛
- 提供者: 中国人工智能学会;知乎
- 数据量: 300万个问题,1999个标签
- 语言: 中文
-
数据集ID 7: 2019之江杯-电商评论观点挖掘大赛
- 提供者: 之江实验室
- 数据量: 商品评论中抽取商品属性特征和消费者观点
- 语言: 中文
-
数据集ID 8: IFLYTEK 长文本分类
- 提供者: 科大讯飞
- 数据量: 1.7万多条关于app应用描述的长文本标注数据,119个类别
- 语言: 中文
-
数据集ID 9: 全网新闻分类数据(SogouCA)
- 提供者: 搜狗
- 数据量: 来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据
- 语言: 中文
-
数据集ID 10: 搜狐新闻数据(SogouCS)
- 提供者: 搜狗
- 数据量: 来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据
- 语言: 中文
-
数据集ID 11: 中科大新闻分类语料库
- 提供者: 刘禹 中国科学院自动化研究所综合信息中心
- 数据量: 暂时不能下载,已经联系作者,等待反馈
- 语言: 中文
-
数据集ID 12: ChnSentiCorp_htl_all
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
- 语言: 中文
-
数据集ID 13: waimai_10k
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条
- 语言: 中文
-
数据集ID 14: online_shopping_10_cats
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条
- 语言: 中文
-
数据集ID 15: weibo_senti_100k
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条
- 语言: 中文
-
数据集ID 16: simplifyweibo_4_moods
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 36 万多条,带情感标注 新浪微博,包含 4 种情感
- 语言: 中文
-
数据集ID 17: dmsc_v2
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据
- 语言: 中文
-
数据集ID 18: yf_dianping
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 24 万家餐馆,54 万用户,440 万条评论/评分数据
- 语言: 中文
-
数据集ID 19: yf_amazon
- 提供者: https://github.com/SophonPlus/ChineseNlpCorpus
- 数据量: 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据
- 语言: 中文
文本匹配
-
数据集ID 1: LCQMC
- 提供者: 哈工大(深圳)智能计算研究中心
- 数据量: 260068个中文问句对,相同询问意图的句子对标记为1,否则为0
- 语言: 中文
-
数据集ID 2: The BQ Corpus
- 提供者: 哈工大(深圳)智能计算研究中心;微众银行
- 数据量: 120000个句子对,来自银行一年中的咨询服务日志
- 语言: 中文




