CLUEDatasetSearch
收藏github2020-05-15 更新2024-05-31 收录
下载链接:
https://github.com/zldeng/CLUEDatasetSearch
下载链接
链接失效反馈官方服务:
资源简介:
中英文NLP数据集,涵盖了NER、QA、情感分析等多个领域,数据集来源广泛,包括CCKS、MSRA、人民日报等,用于支持NLP研究和应用。
The Chinese-English NLP dataset encompasses various domains such as Named Entity Recognition (NER), Question Answering (QA), and Sentiment Analysis. It is sourced from a wide range of references including CCKS, MSRA, and the People's Daily, aimed at supporting NLP research and applications.
创建时间:
2020-02-24
原始信息汇总
数据集概述
命名实体识别(NER)
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | CCKS2017中文电子病例命名实体识别 | 2017年5月 | 北京极目云健康科技有限公司 | 电子病历 | 命名实体识别 | 中文 |
| 2 | CCKS2018中文电子病例命名实体识别 | 2018年 | 医渡云(北京)技术有限公司 | 电子病历 | 命名实体识别 | 中文 |
| 3 | 微软亚研院MSRA命名实体识别识别数据集 | MSRA | Msra | 命名实体识别 | 中文 | |
| 4 | 1998人民日报语料集实体识别标注集 | 1998年1月 | 人民日报 | 98人民日报 | 命名实体识别 | 中文 |
| 5 | Boson | 玻森数据 | Boson | 命名实体识别 | 中文 | |
| 6 | CLUE Fine-Grain NER | 2020年 | CLUE | 细粒度;CULE | 命名实体识别 | 中文 |
| 7 | CoNLL-2003 | 2003 | CNTS - Language Technology Group | CoNLL-2003 | 命名实体识别 | 英文 |
| 8 | 微博实体识别 | 2015年 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | 命名实体识别 | |
| 9 | SIGHAN Bakeoff 2005 | 2005年 | MSR/PKU | bakeoff-2005 | 命名实体识别 |
问答(QA)
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | NewsQA | 2019/9/13 | 微软研究院 | 英文 | QA | |
| 2 | SQuAD | 斯坦福 | 英文 | QA | ||
| 3 | SimpleQuestions | 英文 | QA | |||
| 4 | WikiQA | 2016/7/14 | 微软研究院 | 英文 | QA | |
| 5 | cMedQA | 2019/2/25 | Zhang Sheng | 中文 | QA | |
| 6 | cMedQA2 | 2019/1/9 | Zhang Sheng | 中文 | QA | |
| 7 | webMedQA | 2019/3/10 | He Junqing | 中文 | QA | |
| 8 | XQA | 2019/7/29 | 清华大学 | 多语言 | QA | |
| 9 | AmazonQA | 2019/9/29 | 亚马逊 | 英文 | QA |
情感分析
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | NLPCC2013, Emotion | 情感分析 | |
| 2 | NLPCC2014 Task1 | 2014 | CCF | NLPCC2014, Emotion | 情感分析 | |
| 3 | NLPCC2014 Task2 | 2014 | CCF | NLPCC2014, Sentiment | 情感分析 | |
| 4 | Weibo Emotion Corpus | 2016 | The Hong Kong Polytechnic University | weibo emotion corpus | 情感分析 | |
| 5 | [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) | 2009 | Fuji Ren | RenCECPs, emotion, sentiment | 情感分析 | |
| 6 | weibo_senti_100k | 不详 | 不详 | weibo senti, sentiment | 情感分析 | |
| 7 | BDCI2018-汽车行业用户观点主题及情感识别 | 2018 | CCF | 属性情感分析 主题情感分析 | 情感分析 | |
| 8 | AI Challenger 细粒度用户评论情感分析 | 2o18 | 美团 | 属性情感分析 | 情感分析 | |
| 9 | BDCI2019金融信息负面及主体判定 | 2019 | 中原银行 | 实体情感分析 | 情感分析 | |
| 10 | 之江杯电商评论观点挖掘大赛 | 2019 | 之江实验室 | 属性情感分析 | 情感分析 | |
| 11 | 2019搜狐校园算法大赛 | 2019 | 搜狐 | 实体情感分析 | 情感分析 |
文本分类
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | [2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html) | 2018年7月 | 达观数据 | 长文本;脱敏 | 文本分类 | 中文 |
| 2 | 今日头条中文新闻(文本)分类 | 2018年5月 | 今日头条 | 短文本;新闻 | 文本分类 | 中文 |
| 3 | THUCNews中文文本分类 | 2016年 | 清华大学 | 文档;新闻 | 文本分类 | 中文 |
| 4 | 复旦大学中文文本分类 | 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 | 文档;新闻 | 文本分类 | 中文 | |
| 5 | 新闻标题短文本分类 | 2019年12月 | chenfengshf | 短文本;新闻标题 | 文本分类 | 中文 |
| 6 | 2017 知乎看山杯机器学习挑战赛 | 2017年6月 | 中国人工智能学会;知乎 | 问题;短文本 | 文本分类 | 中文 |
| 7 | 2019之江杯-电商评论观点挖掘大赛 | 2019年8月 | 之江实验室 | 评论;短文本 | 文本分类 | 中文 |
| 8 | IFLYTEK 长文本分类 | 科大讯飞 | 长文本 | 文本分类 | 中文 | |
| 9 | 全网新闻分类数据(SogouCA) | 2012年8月16号 | 搜狗 | 新闻 | 文本分类 | 中文 |
| 10 | 搜狐新闻数据(SogouCS) | 2012年8月 | 搜狗 | 新闻 | 文本分类 | 中文 |
文本匹配
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | 哈工大(深圳)智能计算研究中心 | 大规模问句匹配;意图匹配 | 短文本匹配;问句匹配 | |
| 2 | The BQ Corpus | 2018/9/4 | 哈工大(深圳)智能计算研究中心;微众银行 | 银行服务问句;意图匹配 | 短文本匹配;问句一致性检测 | |
| 3 | AFQMC 蚂蚁金融语义相似度 | 2018/4/25 | 蚂蚁金服 | 金融问句 | 短文本匹配;问句匹配 | |
| 4 | 第三届拍拍贷“魔镜杯”大赛 | 2018/6/10 | 拍拍贷智慧金融研究院 | 金融产品 | 短文本匹配;问句匹配 |
搜集汇总
数据集介绍

构建方式
CLUEDatasetSearch数据集的构建主要通过网络爬虫收集来自不同领域的中英文NLP数据集,并对收集到的数据进行整理和标注,形成了一个包含多种NLP任务的数据集集合。
特点
该数据集的特点在于其多样性,覆盖了命名实体识别、问答、情感分析、文本分类、文本匹配等多种NLP任务,且包含了中英文两种语言的数据,适用于不同场景和需求。
使用方法
用户可以通过数据集的GitHub页面搜索和下载所需的数据集,每个数据集都提供了详细的说明和示例,用户可以根据自己的需求进行选择和使用。对于有特定许可要求的数据集,用户需遵守相应的许可协议。
背景与挑战
背景概述
CLUEDatasetSearch是一个中英文NLP数据集,旨在为研究人员提供丰富的数据资源,以促进自然语言处理领域的发展。该数据集包含了多种类型的数据,如命名实体识别、问答、情感分析、文本分类、文本匹配等,涵盖了自然语言处理的多个方面。数据集的创建时间为2018年,主要研究人员或机构包括清华大学、微软研究院、蚂蚁金服等。该数据集对相关领域的影响力体现在其被广泛应用于学术研究和工业界,推动了自然语言处理技术的进步。
当前挑战
数据集构建过程中遇到的挑战主要包括:1)确保数据的多样性和质量,以适应不同的研究需求;2)数据标注的一致性和准确性,这对于训练高效的自然语言处理模型至关重要;3)数据集的规模和更新速度,以满足不断增长的研究需求。在所解决的领域问题方面,例如问答数据集需要解决如何准确理解问题意图和检索相关答案的挑战;文本分类数据集则需解决如何处理长文本和短文本的不同特性,以及如何平衡不同类别的数据分布等问题。
常用场景
经典使用场景
CLUEDatasetSearch是一个中英文NLP数据集,其中包含多种类型的任务,如命名实体识别、问答、情感分析、文本分类和文本匹配等。其经典使用场景在于为自然语言处理研究提供丰富的数据资源,使得研究者能够在此基础上开展各种语言处理任务,如构建模型进行文本分类、情感分析、实体识别等。
实际应用
在实际应用中,CLUEDatasetSearch可以用于构建智能问答系统、情感分析工具、文本自动分类器等,这些应用能够帮助提高信息处理的效率,为用户提供更加精准的服务。
衍生相关工作
基于CLUEDatasetSearch,研究者们已经衍生出了一系列相关工作,如构建特定领域的文本分类模型、开发情感分析工具、以及设计用于实体识别和文本匹配的算法等。这些工作推动了NLP领域的发展,并为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



