five

CLUEDatasetSearch

收藏
github2020-05-15 更新2024-05-31 收录
下载链接:
https://github.com/zldeng/CLUEDatasetSearch
下载链接
链接失效反馈
官方服务:
资源简介:
中英文NLP数据集,涵盖了NER、QA、情感分析等多个领域,数据集来源广泛,包括CCKS、MSRA、人民日报等,用于支持NLP研究和应用。

The Chinese-English NLP dataset encompasses various domains such as Named Entity Recognition (NER), Question Answering (QA), and Sentiment Analysis. It is sourced from a wide range of references including CCKS, MSRA, and the People's Daily, aimed at supporting NLP research and applications.
创建时间:
2020-02-24
原始信息汇总

数据集概述

命名实体识别(NER)

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 CCKS2017中文电子病例命名实体识别 2017年5月 北京极目云健康科技有限公司 电子病历 命名实体识别 中文
2 CCKS2018中文电子病例命名实体识别 2018年 医渡云(北京)技术有限公司 电子病历 命名实体识别 中文
3 微软亚研院MSRA命名实体识别识别数据集 MSRA Msra 命名实体识别 中文
4 1998人民日报语料集实体识别标注集 1998年1月 人民日报 98人民日报 命名实体识别 中文
5 Boson 玻森数据 Boson 命名实体识别 中文
6 CLUE Fine-Grain NER 2020年 CLUE 细粒度;CULE 命名实体识别 中文
7 CoNLL-2003 2003 CNTS - Language Technology Group CoNLL-2003 命名实体识别 英文
8 微博实体识别 2015年 https://github.com/hltcoe/golden-horse EMNLP-2015 命名实体识别
9 SIGHAN Bakeoff 2005 2005年 MSR/PKU bakeoff-2005 命名实体识别

问答(QA)

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 NewsQA 2019/9/13 微软研究院 英文 QA
2 SQuAD 斯坦福 英文 QA
3 SimpleQuestions Facebook 英文 QA
4 WikiQA 2016/7/14 微软研究院 英文 QA
5 cMedQA 2019/2/25 Zhang Sheng 中文 QA
6 cMedQA2 2019/1/9 Zhang Sheng 中文 QA
7 webMedQA 2019/3/10 He Junqing 中文 QA
8 XQA 2019/7/29 清华大学 多语言 QA
9 AmazonQA 2019/9/29 亚马逊 英文 QA

情感分析

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 NLPCC2013 2013 CCF NLPCC2013, Emotion 情感分析
2 NLPCC2014 Task1 2014 CCF NLPCC2014, Emotion 情感分析
3 NLPCC2014 Task2 2014 CCF NLPCC2014, Sentiment 情感分析
4 Weibo Emotion Corpus 2016 The Hong Kong Polytechnic University weibo emotion corpus 情感分析
5 [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) 2009 Fuji Ren RenCECPs, emotion, sentiment 情感分析
6 weibo_senti_100k 不详 不详 weibo senti, sentiment 情感分析
7 BDCI2018-汽车行业用户观点主题及情感识别 2018 CCF 属性情感分析 主题情感分析 情感分析
8 AI Challenger 细粒度用户评论情感分析 2o18 美团 属性情感分析 情感分析
9 BDCI2019金融信息负面及主体判定 2019 中原银行 实体情感分析 情感分析
10 之江杯电商评论观点挖掘大赛 2019 之江实验室 属性情感分析 情感分析
11 2019搜狐校园算法大赛 2019 搜狐 实体情感分析 情感分析

文本分类

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 [2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html) 2018年7月 达观数据 长文本;脱敏 文本分类 中文
2 今日头条中文新闻(文本)分类 2018年5月 今日头条 短文本;新闻 文本分类 中文
3 THUCNews中文文本分类 2016年 清华大学 文档;新闻 文本分类 中文
4 复旦大学中文文本分类 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 文档;新闻 文本分类 中文
5 新闻标题短文本分类 2019年12月 chenfengshf 短文本;新闻标题 文本分类 中文
6 2017 知乎看山杯机器学习挑战赛 2017年6月 中国人工智能学会;知乎 问题;短文本 文本分类 中文
7 2019之江杯-电商评论观点挖掘大赛 2019年8月 之江实验室 评论;短文本 文本分类 中文
8 IFLYTEK 长文本分类 科大讯飞 长文本 文本分类 中文
9 全网新闻分类数据(SogouCA) 2012年8月16号 搜狗 新闻 文本分类 中文
10 搜狐新闻数据(SogouCS) 2012年8月 搜狗 新闻 文本分类 中文

文本匹配

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 LCQMC 2018/6/6 哈工大(深圳)智能计算研究中心 大规模问句匹配;意图匹配 短文本匹配;问句匹配
2 The BQ Corpus 2018/9/4 哈工大(深圳)智能计算研究中心;微众银行 银行服务问句;意图匹配 短文本匹配;问句一致性检测
3 AFQMC 蚂蚁金融语义相似度 2018/4/25 蚂蚁金服 金融问句 短文本匹配;问句匹配
4 第三届拍拍贷“魔镜杯”大赛 2018/6/10 拍拍贷智慧金融研究院 金融产品 短文本匹配;问句匹配
搜集汇总
数据集介绍
main_image_url
构建方式
CLUEDatasetSearch数据集的构建主要通过网络爬虫收集来自不同领域的中英文NLP数据集,并对收集到的数据进行整理和标注,形成了一个包含多种NLP任务的数据集集合。
特点
该数据集的特点在于其多样性,覆盖了命名实体识别、问答、情感分析、文本分类、文本匹配等多种NLP任务,且包含了中英文两种语言的数据,适用于不同场景和需求。
使用方法
用户可以通过数据集的GitHub页面搜索和下载所需的数据集,每个数据集都提供了详细的说明和示例,用户可以根据自己的需求进行选择和使用。对于有特定许可要求的数据集,用户需遵守相应的许可协议。
背景与挑战
背景概述
CLUEDatasetSearch是一个中英文NLP数据集,旨在为研究人员提供丰富的数据资源,以促进自然语言处理领域的发展。该数据集包含了多种类型的数据,如命名实体识别、问答、情感分析、文本分类、文本匹配等,涵盖了自然语言处理的多个方面。数据集的创建时间为2018年,主要研究人员或机构包括清华大学、微软研究院、蚂蚁金服等。该数据集对相关领域的影响力体现在其被广泛应用于学术研究和工业界,推动了自然语言处理技术的进步。
当前挑战
数据集构建过程中遇到的挑战主要包括:1)确保数据的多样性和质量,以适应不同的研究需求;2)数据标注的一致性和准确性,这对于训练高效的自然语言处理模型至关重要;3)数据集的规模和更新速度,以满足不断增长的研究需求。在所解决的领域问题方面,例如问答数据集需要解决如何准确理解问题意图和检索相关答案的挑战;文本分类数据集则需解决如何处理长文本和短文本的不同特性,以及如何平衡不同类别的数据分布等问题。
常用场景
经典使用场景
CLUEDatasetSearch是一个中英文NLP数据集,其中包含多种类型的任务,如命名实体识别、问答、情感分析、文本分类和文本匹配等。其经典使用场景在于为自然语言处理研究提供丰富的数据资源,使得研究者能够在此基础上开展各种语言处理任务,如构建模型进行文本分类、情感分析、实体识别等。
实际应用
在实际应用中,CLUEDatasetSearch可以用于构建智能问答系统、情感分析工具、文本自动分类器等,这些应用能够帮助提高信息处理的效率,为用户提供更加精准的服务。
衍生相关工作
基于CLUEDatasetSearch,研究者们已经衍生出了一系列相关工作,如构建特定领域的文本分类模型、开发情感分析工具、以及设计用于实体识别和文本匹配的算法等。这些工作推动了NLP领域的发展,并为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作