five

CLUEDatasetSearch

收藏
github2020-02-29 更新2024-05-31 收录
下载链接:
https://github.com/520jefferson/CLUEDatasetSearch
下载链接
链接失效反馈
官方服务:
资源简介:
中英文NLP数据集,包含多个子数据集,如NER、QA等,用于不同的NLP任务。

The Chinese-English NLP dataset comprises multiple sub-datasets, such as NER (Named Entity Recognition) and QA (Question Answering), designed for various NLP tasks.
创建时间:
2020-02-29
原始信息汇总

数据集概述

命名实体识别(NER)

ID 标题 更新日期 数据集提供者 说明 关键字 类别 备注
1 CCKS2017中文电子病例命名实体识别 2017年5月 北京极目云健康科技有限公司 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 电子病历 命名实体识别 中文
2 CCKS2018中文电子病例命名实体识别 2018年 医渡云(北京)技术有限公司 CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 电子病历 命名实体识别 中文
3 微软亚研院MSRA命名实体识别识别数据集 MSRA 数据来源于MSRA,标注形式为BIO,共有46365条语料 Msra 命名实体识别 中文
4 1998人民日报语料集实体识别标注集 1998年1月 人民日报 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 98人民日报 命名实体识别 中文
5 Boson 玻森数据 数据来源为Boson,标注形式为BMEO,共有2000条语料 Boson 命名实体识别 中文
6 CLUE Fine-Grain NER 2020年 CLUE CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 细粒度;CULE 命名实体识别 中文
7 CoNLL-2003 2003 CNTS - Language Technology Group 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 CoNLL-2003 命名实体识别 英文
8 微博实体识别 2015年 https://github.com/hltcoe/golden-horse EMNLP-2015 命名实体识别
9 SIGHAN Bakeoff 2005 2005年 MSR/PKU bakeoff-2005 命名实体识别

问答(QA)

ID 标题 更新日期 数据集提供者 说明 关键字 类别 备注
1 NewsQA 2019/9/13 微软研究院 Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 英文 QA
2 SQuAD 斯坦福 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 英文 QA
3 SimpleQuestions Facebook 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 英文 QA
4 WikiQA 2016/7/14 微软研究院 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 英文 QA
5 cMedQA 2019/2/25 Zhang Sheng 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。 中文 QA
6 cMedQA2 2019/1/9 Zhang Sheng cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。 中文 QA
7 webMedQA 2019/3/10 He Junqing 一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。 中文 QA
8 XQA 2019/7/29 清华大学 该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。 多语言 QA
9 AmazonQA 2019/9/29 亚马逊 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 英文 QA

情感分析

ID 标题 更新日期 数据集提供者 说明 关键字 类别 备注
1 NLPCC2013 2013 CCF 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 条微博, 45 431句子 NLPCC2013, Emotion 情感分析
2 NLPCC2014 Task1 2014 CCF 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000条微博 NLPCC2014, Emotion 情感分析
3 NLPCC2014 Task2 2014 CCF 微博语料,标注了正面和负面 NLPCC2014, Sentiment 情感分析
4 Weibo Emotion Corpus 2016 The Hong Kong Polytechnic University 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四万多条微博 weibo emotion corpus 情感分析
5 [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) 2009 Fuji Ren 标注的博客语料库,在文档级、段落级和句子级标注了emotion和sentiment。包含了1500个博客,11000段落和35000句子。 RenCECPs, emotion, sentiment 情感分析
6 weibo_senti_100k 不详 不详 带情感标注 新浪微博,正负向评论约各 5 万条 weibo senti, sentiment 情感分析
7 BDCI2018-汽车行业用户观点主题及情感识别 2018 CCF 汽车论坛中对汽车的评论,标注了汽车的诗歌主题:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签,情感分为3类,分别用数字0、1、-1表示中立、正向、负向。 属性情感分析 主题情感分析 情感分析
8 AI Challenger 细粒度用户评论情感分析 2o18 美团 餐饮评论,6个一级属性,20个二级属性,每个属性标注正面、负面、中性、未提及。 属性情感分析 情感分析
9 BDCI2019金融信息负面及主体判定 2019 中原银行 金融领域新闻,每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。 实体情感分析 情感分析
10 之江杯电商评论观点挖掘大赛 2019 之江实验室 本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度。此外,多个属性特征可以归入某一个属性种类,例如外观、盒子等属性特征均可归入包装这个属性种类。参赛队伍最终需提交对测试数据的抽取预测信息,包括属性特征词、观点词、观点极性和属性种类4个字段。 属性情感分析 情感分析
11 2019搜狐校园算法大赛 2019 搜狐 给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。实体:人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的实体词。核心实体:文章主要描述、或担任文章主要角色的实体词。 实体情感分析 情感分析

文本分类

ID 标题 更新日期 数据集提供者 说明 关键字 类别 备注
1 [2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html) 2018年7月 达观数据 数据集来源于达观数据,为长文本分类任务,其主要包括了id,article,word_seg和class四个字段,数据包含19个类别,共102275条样本 长文本;脱敏 文本分类 中文
2 今日头条中文新闻(文本)分类 2018年5月 今日头条 数据集来源于今日头条,为短文本分类任务,数据包含15个类别,共382688条样本 短文本;新闻 文本分类 中文
3 THUCNews中文文本分类 2016年 清华大学 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,共74万篇新闻文档(2.19 GB) 文档;新闻 文本分类 中文
4 复旦大学中文文本分类 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 数据集来源于复旦大学,为短文本分类任务,数据包含20个类别,共9804篇文档 文档;新闻 文本分类 中文
5 [新闻标题短文本分类](https://www.kesci.com/home/dataset/5dd645fca0
搜集汇总
数据集介绍
main_image_url
构建方式
CLUEDatasetSearch数据集的构建主要通过网络上搜集的中英文NLP数据集,涵盖了命名实体识别、问答、情感分析、文本分类、文本匹配等多种任务。数据集的构建注重多样性和全面性,旨在为研究人员提供丰富的数据资源。
特点
CLUEDatasetSearch数据集的特点在于其广泛性、多样性以及实用性。它包含了多种语言处理任务所需的数据集,能够满足不同研究需求。此外,数据集的来源多样,包括网络新闻、社交媒体、金融领域等,有助于模型在不同领域中的应用。
使用方法
使用CLUEDatasetSearch数据集时,用户可以根据自己的需求选择相应的数据集。数据集通常包含了详细的说明和示例,用户可以通过阅读文档来了解数据集的结构和特点。对于数据集的使用,需要遵循相应的许可协议,尊重数据集提供者的版权和贡献。
背景与挑战
背景概述
CLUEDatasetSearch是一个中英文NLP数据集,旨在为NLP研究人员提供方便的数据集搜索服务。该数据集涵盖了多种NLP任务,如命名实体识别、问答、情感分析、文本分类、文本匹配等。数据集的创建时间为2018年,主要研究人员或机构为CLUE(中文语言理解评测)和清华大学。该数据集的核心研究问题是提供全面的NLP数据集资源,以便研究人员可以轻松找到并使用这些数据集来推进他们的研究工作。该数据集对相关领域的影响力体现在它为中文NLP研究提供了一个集中的数据集资源,极大地便利了研究人员的数据集获取和比较研究。
当前挑战
CLUEDatasetSearch面临的挑战主要包括:1)如何确保数据集的全面性和时效性,随着NLP领域的快速发展,新的数据集不断涌现,需要及时更新数据集列表;2)如何提高数据集搜索的准确性和效率,为研究人员提供更加精准的数据集推荐;3)数据集的版权和许可问题,由于数据集来源多样,需要确保每个数据集的版权和许可问题都得到妥善处理。
常用场景
经典使用场景
CLUEDatasetSearch是一个中英文NLP数据集搜索平台,用户可以通过该平台查找各种NLP任务所需的数据集,例如命名实体识别、问答、情感分析、文本分类、文本匹配等。其经典使用场景包括在学术研究中需要寻找特定类型的语料库,或者在开发NLP应用时需要测试和验证模型性能。
衍生相关工作
基于CLUEDatasetSearch,研究者可以开展多项衍生工作,例如开发新的NLP模型、提出新的NLP任务或者构建更加完善的数据集。这些工作将进一步推动NLP领域的研究和应用。
数据集最近研究
最新研究方向
CLUEDatasetSearch数据集最新研究方向聚焦于自然语言处理任务,包括命名实体识别、问答、情感分析、文本分类和文本匹配等。在命名实体识别方面,研究细粒度实体标注;在问答领域,研究如何构建能够理解和推理的算法;情感分析则关注于微博等社交媒体文本的情绪标注;文本分类任务涉及长文本和短文本的分类,以及新闻和评论等不同领域的文本;文本匹配则着重于问句的意图匹配和一致性检测。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作