five

CLUEDatasetSearch

收藏
github2020-02-27 更新2024-05-31 收录
下载链接:
https://github.com/jackyyvan/CLUEDatasetSearch
下载链接
链接失效反馈
官方服务:
资源简介:
中英文NLP数据集,提供搜索功能,用户可以上传数据集信息,涵盖NER、QA、情感分析等多个领域。

A Chinese-English NLP dataset offering search functionality, allowing users to upload dataset information, covering multiple domains such as Named Entity Recognition (NER), Question Answering (QA), and sentiment analysis.
创建时间:
2020-02-24
原始信息汇总

数据集概述

命名实体识别(NER)

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 CCKS2017中文电子病例命名实体识别 2017年5月 北京极目云健康科技有限公司 电子病历 命名实体识别 中文
2 CCKS2018中文电子病例命名实体识别 2018年 医渡云(北京)技术有限公司 电子病历 命名实体识别 中文
3 微软亚研院MSRA命名实体识别识别数据集 MSRA Msra 命名实体识别 中文
4 1998人民日报语料集实体识别标注集 1998年1月 人民日报 98人民日报 命名实体识别 中文
5 Boson 玻森数据 Boson 命名实体识别 中文
6 CLUE Fine-Grain NER 2020年 CLUE 细粒度;CULE 命名实体识别 中文
7 CoNLL-2003 2003 CNTS - Language Technology Group CoNLL-2003 命名实体识别 英文
8 微博实体识别 2015年 https://github.com/hltcoe/golden-horse EMNLP-2015 命名实体识别
9 SIGHAN Bakeoff 2005 2005年 MSR/PKU bakeoff-2005 命名实体识别

问答(QA)

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 NewsQA 2019/9/13 微软研究院 英文 QA
2 SQuAD 斯坦福 英文 QA
3 SimpleQuestions Facebook 英文 QA
4 WikiQA 2016/7/14 微软研究院 英文 QA
5 cMedQA 2019/2/25 Zhang Sheng 中文 QA
6 cMedQA2 2019/1/9 Zhang Sheng 中文 QA
7 webMedQA 2019/3/10 He Junqing 中文 QA
8 XQA 2019/7/29 清华大学 多语言 QA
9 AmazonQA 2019/9/29 亚马逊 英文 QA

情感分析

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 NLPCC2013 2013 CCF NLPCC2013, Emotion 情感分析
2 NLPCC2014 Task1 2014 CCF NLPCC2014, Emotion 情感分析
3 NLPCC2014 Task2 2014 CCF NLPCC2014, Sentiment 情感分析
4 Weibo Emotion Corpus 2016 The Hong Kong Polytechnic University weibo emotion corpus 情感分析
5 [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) 2009 Fuji Ren RenCECPs, emotion, sentiment 情感分析
6 weibo_senti_100k 不详 不详 weibo senti, sentiment 情感分析
7 BDCI2018-汽车行业用户观点主题及情感识别 2018 CCF 属性情感分析 主题情感分析 情感分析
8 AI Challenger 细粒度用户评论情感分析 2o18 美团 属性情感分析 情感分析
9 BDCI2019金融信息负面及主体判定 2019 中原银行 实体情感分析 情感分析
10 之江杯电商评论观点挖掘大赛 2019 之江实验室 属性情感分析 情感分析
11 2019搜狐校园算法大赛 2019 搜狐 实体情感分析 情感分析

文本分类

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 [2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html) 2018年7月 达观数据 长文本;脱敏 文本分类 中文
2 今日头条中文新闻(文本)分类 2018年5月 今日头条 短文本;新闻 文本分类 中文
3 THUCNews中文文本分类 2016年 清华大学 文档;新闻 文本分类 中文
4 复旦大学中文文本分类 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 文档;新闻 文本分类 中文
5 新闻标题短文本分类 2019年12月 chenfengshf 短文本;新闻标题 文本分类 中文
6 2017 知乎看山杯机器学习挑战赛 2017年6月 中国人工智能学会;知乎 问题;短文本 文本分类 中文
7 2019之江杯-电商评论观点挖掘大赛 2019年8月 之江实验室 评论;短文本 文本分类 中文
8 IFLYTEK 长文本分类 科大讯飞 长文本 文本分类 中文
9 全网新闻分类数据(SogouCA) 2012年8月16号 搜狗 新闻 文本分类 中文
10 搜狐新闻数据(SogouCS) 2012年8月 搜狗 新闻 文本分类 中文

文本匹配

ID 标题 数据集更新日期 数据集提供者 关键字 类别 备注
1 LCQMC 2018/6/6 哈工大(深圳)智能计算研究中心 大规模问句匹配;意图匹配 短文本匹配;问句匹配
2 The BQ Corpus 2018/9/4 哈工大(深圳)智能计算研究中心;微众银行 银行服务问句;意图匹配 短文本匹配;问句一致性检测
3 AFQMC 蚂蚁金融语义相似度 2018/4/25 蚂蚁金服 金融问句 短文本匹配;问句匹配
4 第三届拍拍贷“魔镜杯”大赛 2018/6/10 拍拍贷智慧金融研究院 金融产品 短文本匹配;问句匹配
搜集汇总
数据集介绍
main_image_url
构建方式
CLUEDatasetSearch是一个中英文NLP数据集,它通过网络搜集和整理了多种类型的NLP任务数据,包括命名实体识别、问答、情感分析、文本分类、文本匹配等。数据集的构建主要依赖于网络资源的整理和用户贡献,例如通过GitHub等平台收集开源的数据集信息,以及用户上传的数据集。构建过程中注重数据的多样性和质量,以满足不同NLP任务的需求。
使用方法
用户可以通过数据集的官方网站或者GitHub仓库来获取数据。在获取数据后,用户需要根据具体的使用场景和任务类型来处理和格式化数据。例如,对于文本分类任务,用户可能需要预处理文本数据,将其转化为适合模型训练的格式。对于问答任务,用户需要理解数据集中的标注规则,以便正确地训练和评估模型。
背景与挑战
背景概述
CLUEDatasetSearch是一个中英文NLP数据集,提供了多种类型的NLP任务相关数据,如命名实体识别、问答、情感分析、文本分类、文本匹配等。该数据集创建于2018年,由北京极目云健康科技有限公司、微软研究院、斯坦福大学等机构或个人提供数据。数据集涵盖了从1998人民日报语料集到2020年的CLUE Fine-Grain NER等多个数据集,包含了中文和英文数据,旨在为NLP研究提供丰富的资源。
当前挑战
数据集构建过程中遇到的挑战主要包括:1)确保数据的多样性和质量,以适应不同的NLP任务需求;2)数据标注的一致性和准确性,尤其是在细粒度任务中,如命名实体识别和情感分析;3)大规模数据集的存储和分发问题;4)数据集的持续更新和维护。对于研究领域问题,如文本分类面临的挑战包括:如何处理长文本和短文本分类任务,以及如何提高分类的准确性和效率。
常用场景
经典使用场景
CLUEDatasetSearch是一个中英文NLP数据集,广泛应用于自然语言处理领域,如命名实体识别、情感分析、文本分类、文本匹配等任务。其经典使用场景包括作为训练和测试数据集,用于模型训练和性能评估。
解决学术问题
该数据集解决了NLP领域中的多个学术研究问题,包括如何提高命名实体识别的准确率、如何进行有效的情感分析、如何实现精准的文本分类以及如何提升文本匹配的效果等。它提供了丰富的数据资源,帮助研究者们验证和改进算法。
实际应用
在实际应用中,CLUEDatasetSearch可以用于构建智能问答系统、情感分析工具、文本自动分类器以及搜索引擎中的文本匹配模块等。这些应用能够提高信息处理的效率,为用户提供更加智能的服务体验。
数据集最近研究
最新研究方向
该数据集最新研究方向主要聚焦于自然语言处理领域的关键任务,如命名实体识别、问答系统、情感分析、文本分类和文本匹配等。在这些方向上,研究者们致力于提高模型的准确性、泛化能力和实际应用价值。例如,命名实体识别任务中的细粒度实体识别和跨领域实体识别;问答系统中的多语言问答和数据集构建;情感分析中的情感识别模型和跨领域情感分析;文本分类中的长文本分类和新闻分类;文本匹配中的问句匹配和意图识别等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作