CLUEDatasetSearch
收藏github2020-02-27 更新2024-05-31 收录
下载链接:
https://github.com/jackyyvan/CLUEDatasetSearch
下载链接
链接失效反馈官方服务:
资源简介:
中英文NLP数据集,提供搜索功能,用户可以上传数据集信息,涵盖NER、QA、情感分析等多个领域。
A Chinese-English NLP dataset offering search functionality, allowing users to upload dataset information, covering multiple domains such as Named Entity Recognition (NER), Question Answering (QA), and sentiment analysis.
创建时间:
2020-02-24
原始信息汇总
数据集概述
命名实体识别(NER)
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | CCKS2017中文电子病例命名实体识别 | 2017年5月 | 北京极目云健康科技有限公司 | 电子病历 | 命名实体识别 | 中文 |
| 2 | CCKS2018中文电子病例命名实体识别 | 2018年 | 医渡云(北京)技术有限公司 | 电子病历 | 命名实体识别 | 中文 |
| 3 | 微软亚研院MSRA命名实体识别识别数据集 | MSRA | Msra | 命名实体识别 | 中文 | |
| 4 | 1998人民日报语料集实体识别标注集 | 1998年1月 | 人民日报 | 98人民日报 | 命名实体识别 | 中文 |
| 5 | Boson | 玻森数据 | Boson | 命名实体识别 | 中文 | |
| 6 | CLUE Fine-Grain NER | 2020年 | CLUE | 细粒度;CULE | 命名实体识别 | 中文 |
| 7 | CoNLL-2003 | 2003 | CNTS - Language Technology Group | CoNLL-2003 | 命名实体识别 | 英文 |
| 8 | 微博实体识别 | 2015年 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | 命名实体识别 | |
| 9 | SIGHAN Bakeoff 2005 | 2005年 | MSR/PKU | bakeoff-2005 | 命名实体识别 |
问答(QA)
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | NewsQA | 2019/9/13 | 微软研究院 | 英文 | QA | |
| 2 | SQuAD | 斯坦福 | 英文 | QA | ||
| 3 | SimpleQuestions | 英文 | QA | |||
| 4 | WikiQA | 2016/7/14 | 微软研究院 | 英文 | QA | |
| 5 | cMedQA | 2019/2/25 | Zhang Sheng | 中文 | QA | |
| 6 | cMedQA2 | 2019/1/9 | Zhang Sheng | 中文 | QA | |
| 7 | webMedQA | 2019/3/10 | He Junqing | 中文 | QA | |
| 8 | XQA | 2019/7/29 | 清华大学 | 多语言 | QA | |
| 9 | AmazonQA | 2019/9/29 | 亚马逊 | 英文 | QA |
情感分析
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | NLPCC2013, Emotion | 情感分析 | |
| 2 | NLPCC2014 Task1 | 2014 | CCF | NLPCC2014, Emotion | 情感分析 | |
| 3 | NLPCC2014 Task2 | 2014 | CCF | NLPCC2014, Sentiment | 情感分析 | |
| 4 | Weibo Emotion Corpus | 2016 | The Hong Kong Polytechnic University | weibo emotion corpus | 情感分析 | |
| 5 | [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) | 2009 | Fuji Ren | RenCECPs, emotion, sentiment | 情感分析 | |
| 6 | weibo_senti_100k | 不详 | 不详 | weibo senti, sentiment | 情感分析 | |
| 7 | BDCI2018-汽车行业用户观点主题及情感识别 | 2018 | CCF | 属性情感分析 主题情感分析 | 情感分析 | |
| 8 | AI Challenger 细粒度用户评论情感分析 | 2o18 | 美团 | 属性情感分析 | 情感分析 | |
| 9 | BDCI2019金融信息负面及主体判定 | 2019 | 中原银行 | 实体情感分析 | 情感分析 | |
| 10 | 之江杯电商评论观点挖掘大赛 | 2019 | 之江实验室 | 属性情感分析 | 情感分析 | |
| 11 | 2019搜狐校园算法大赛 | 2019 | 搜狐 | 实体情感分析 | 情感分析 |
文本分类
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | [2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html) | 2018年7月 | 达观数据 | 长文本;脱敏 | 文本分类 | 中文 |
| 2 | 今日头条中文新闻(文本)分类 | 2018年5月 | 今日头条 | 短文本;新闻 | 文本分类 | 中文 |
| 3 | THUCNews中文文本分类 | 2016年 | 清华大学 | 文档;新闻 | 文本分类 | 中文 |
| 4 | 复旦大学中文文本分类 | 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 | 文档;新闻 | 文本分类 | 中文 | |
| 5 | 新闻标题短文本分类 | 2019年12月 | chenfengshf | 短文本;新闻标题 | 文本分类 | 中文 |
| 6 | 2017 知乎看山杯机器学习挑战赛 | 2017年6月 | 中国人工智能学会;知乎 | 问题;短文本 | 文本分类 | 中文 |
| 7 | 2019之江杯-电商评论观点挖掘大赛 | 2019年8月 | 之江实验室 | 评论;短文本 | 文本分类 | 中文 |
| 8 | IFLYTEK 长文本分类 | 科大讯飞 | 长文本 | 文本分类 | 中文 | |
| 9 | 全网新闻分类数据(SogouCA) | 2012年8月16号 | 搜狗 | 新闻 | 文本分类 | 中文 |
| 10 | 搜狐新闻数据(SogouCS) | 2012年8月 | 搜狗 | 新闻 | 文本分类 | 中文 |
文本匹配
| ID | 标题 | 数据集更新日期 | 数据集提供者 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | 哈工大(深圳)智能计算研究中心 | 大规模问句匹配;意图匹配 | 短文本匹配;问句匹配 | |
| 2 | The BQ Corpus | 2018/9/4 | 哈工大(深圳)智能计算研究中心;微众银行 | 银行服务问句;意图匹配 | 短文本匹配;问句一致性检测 | |
| 3 | AFQMC 蚂蚁金融语义相似度 | 2018/4/25 | 蚂蚁金服 | 金融问句 | 短文本匹配;问句匹配 | |
| 4 | 第三届拍拍贷“魔镜杯”大赛 | 2018/6/10 | 拍拍贷智慧金融研究院 | 金融产品 | 短文本匹配;问句匹配 |
搜集汇总
数据集介绍

构建方式
CLUEDatasetSearch是一个中英文NLP数据集,它通过网络搜集和整理了多种类型的NLP任务数据,包括命名实体识别、问答、情感分析、文本分类、文本匹配等。数据集的构建主要依赖于网络资源的整理和用户贡献,例如通过GitHub等平台收集开源的数据集信息,以及用户上传的数据集。构建过程中注重数据的多样性和质量,以满足不同NLP任务的需求。
使用方法
用户可以通过数据集的官方网站或者GitHub仓库来获取数据。在获取数据后,用户需要根据具体的使用场景和任务类型来处理和格式化数据。例如,对于文本分类任务,用户可能需要预处理文本数据,将其转化为适合模型训练的格式。对于问答任务,用户需要理解数据集中的标注规则,以便正确地训练和评估模型。
背景与挑战
背景概述
CLUEDatasetSearch是一个中英文NLP数据集,提供了多种类型的NLP任务相关数据,如命名实体识别、问答、情感分析、文本分类、文本匹配等。该数据集创建于2018年,由北京极目云健康科技有限公司、微软研究院、斯坦福大学等机构或个人提供数据。数据集涵盖了从1998人民日报语料集到2020年的CLUE Fine-Grain NER等多个数据集,包含了中文和英文数据,旨在为NLP研究提供丰富的资源。
当前挑战
数据集构建过程中遇到的挑战主要包括:1)确保数据的多样性和质量,以适应不同的NLP任务需求;2)数据标注的一致性和准确性,尤其是在细粒度任务中,如命名实体识别和情感分析;3)大规模数据集的存储和分发问题;4)数据集的持续更新和维护。对于研究领域问题,如文本分类面临的挑战包括:如何处理长文本和短文本分类任务,以及如何提高分类的准确性和效率。
常用场景
经典使用场景
CLUEDatasetSearch是一个中英文NLP数据集,广泛应用于自然语言处理领域,如命名实体识别、情感分析、文本分类、文本匹配等任务。其经典使用场景包括作为训练和测试数据集,用于模型训练和性能评估。
解决学术问题
该数据集解决了NLP领域中的多个学术研究问题,包括如何提高命名实体识别的准确率、如何进行有效的情感分析、如何实现精准的文本分类以及如何提升文本匹配的效果等。它提供了丰富的数据资源,帮助研究者们验证和改进算法。
实际应用
在实际应用中,CLUEDatasetSearch可以用于构建智能问答系统、情感分析工具、文本自动分类器以及搜索引擎中的文本匹配模块等。这些应用能够提高信息处理的效率,为用户提供更加智能的服务体验。
数据集最近研究
最新研究方向
该数据集最新研究方向主要聚焦于自然语言处理领域的关键任务,如命名实体识别、问答系统、情感分析、文本分类和文本匹配等。在这些方向上,研究者们致力于提高模型的准确性、泛化能力和实际应用价值。例如,命名实体识别任务中的细粒度实体识别和跨领域实体识别;问答系统中的多语言问答和数据集构建;情感分析中的情感识别模型和跨领域情感分析;文本分类中的长文本分类和新闻分类;文本匹配中的问句匹配和意图识别等。
以上内容由遇见数据集搜集并总结生成



