CLUEDatasetSearch

github2020-03-17 更新2024-05-31 收录

下载链接：

https://github.com/subscripti0n/CLUEDatasetSearch

下载链接

链接失效反馈

官方服务：

资源简介：

中英文NLP数据集，涵盖NER、QA、情感分析、文本分类等多个领域，数据来源于多个机构和平台，如北京极目云健康科技有限公司、医渡云（北京）技术有限公司等。

A Chinese-English NLP dataset covering multiple domains such as Named Entity Recognition (NER), Question Answering (QA), sentiment analysis, and text classification. The data is sourced from various institutions and platforms, including Beijing Jimum Cloud Health Technology Co., Ltd. and Yidu Cloud (Beijing) Technology Co., Ltd.

创建时间：

2020-03-17

原始信息汇总

数据集概述

命名实体识别（NER）

ID	标题	更新日期	数据集提供者	说明	关键字	类别	备注
1	CCKS2017中文电子病例命名实体识别	2017年5月	北京极目云健康科技有限公司	数据来源于其云医院平台的真实电子病历数据，共计800条（单个病人单次就诊记录），经脱敏处理	电子病历	命名实体识别	中文
2	CCKS2018中文电子病例命名实体识别	2018年	医渡云（北京）技术有限公司	CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体	电子病历	命名实体识别	中文
3	微软亚研院MSRA命名实体识别识别数据集		MSRA	数据来源于MSRA，标注形式为BIO，共有46365条语料	Msra	命名实体识别	中文
4	1998人民日报语料集实体识别标注集	1998年1月	人民日报	数据来源为98年人民日报，标注形式为BIO，共有23061条语料	98人民日报	命名实体识别	中文
5	Boson		玻森数据	数据来源为Boson，标注形式为BMEO,共有2000条语料	Boson	命名实体识别	中文
6	CLUE Fine-Grain NER	2020年	CLUE	CLUENER2020数据集，是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注，原数据来源于Sina News RSS。数据包含10个标签类别，训练集共有10748条语料，验证集共有1343条语料	细粒度；CULE	命名实体识别	中文
7	CoNLL-2003	2003	CNTS - Language Technology Group	数据来源于CoNLL-2003的任务，该数据标注了包括PER, LOC, ORG和MISC的四个类别	CoNLL-2003	命名实体识别	英文
8	微博实体识别	2015年	https://github.com/hltcoe/golden-horse		EMNLP-2015	命名实体识别
9	SIGHAN Bakeoff 2005	2005年	MSR/PKU		bakeoff-2005	命名实体识别

问答（QA）

ID	标题	更新日期	数据集提供者	说明	关键字	类别	论文地址
1	NewsQA	2019/9/13	微软研究院	Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案，每篇文章平均616个单词，每个问题有2～3个答案。	英文	QA	论文
2	SQuAD		斯坦福	斯坦福问答数据集（SQuAD）是一个阅读理解数据集，由维基百科的一组文章上提出的问题组成，其中每个问题的答案都是一段文本，可能来自相应的阅读段落，或者问题可能是未解答的。	英文	QA	论文
3	SimpleQuestions		Facebook	基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集，数据集有100K简单问题的回答。	英文	QA	论文
4	WikiQA	2016/7/14	微软研究院	为了反映一般用户的真实信息需求，WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息，所以使用本节中的句子作为候选答案。在众包的帮助下，数据集中包括3047个问题和29258个句子，其中1473个句子被标记为对应问题的回答句子。	英文	QA	论文
5	cMedQA	2019/2/25	Zhang Sheng	医学在线论坛的数据，包含5.4万个问题，及对应的约10万个回答。	中文	QA	论文
6	cMedQA2	2019/1/9	Zhang Sheng	cMedQA的扩展版，包含约10万个医学相关问题，及对应的约20万个回答。	中文	QA	论文
7	webMedQA	2019/3/10	He Junqing	一个医学在线问答数据集，包含6万个问题和31万个回答，而且包含问题的类别。	中文	QA	论文
8	XQA	2019/7/29	清华大学	该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集，该数据集（训练集、测试集）主要包括九种语言，9万多个问答。	多语言	QA	论文
9	AmazonQA	2019/9/29	亚马逊	卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点，提出了基于评论的QA模型任务，即利用先前对某一产品的问答，QA系统自动总结出一个答案给客户	英文	QA	论文

情感分析

ID	标题	更新日期	数据集提供者	说明	关键字	类别	论文地址
1	NLPCC2013	2013	CCF	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小：14 000 条微博, 45 431句子	NLPCC2013, Emotion	情感分析	论文
2	NLPCC2014 Task1	2014	CCF	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小：20000条微博	NLPCC2014, Emotion	情感分析
3	NLPCC2014 Task2	2014	CCF	微博语料，标注了正面和负面	NLPCC2014, Sentiment	情感分析
4	Weibo Emotion Corpus	2016	The Hong Kong Polytechnic University	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小：四万多条微博	weibo emotion corpus	情感分析	Emotion Corpus Construction Based on Selection from Noisy Natural Labels
5	[RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.)	2009	Fuji Ren	标注的博客语料库，在文档级、段落级和句子级标注了emotion和sentiment。包含了1500个博客，11000段落和35000句子。	RenCECPs, emotion, sentiment	情感分析	Construction of a blog emotion corpus for Chinese emotional expression analysis
6	weibo_senti_100k	不详	不详	带情感标注新浪微博，正负向评论约各 5 万条	weibo senti, sentiment	情感分析
7	BDCI2018-汽车行业用户观点主题及情感识别	2018	CCF	汽车论坛中对汽车的评论，标注了汽车的诗歌主题：动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签，情感分为3类，分别用数字0、1、-1表示中立、正向、负向。	属性情感分析主题情感分析	情感分析
8	AI Challenger 细粒度用户评论情感分析	2o18	美团	餐饮评论，6个一级属性，20个二级属性，每个属性标注正面、负面、中性、未提及。	属性情感分析	情感分析
9	BDCI2019金融信息负面及主体判定	2019	中原银行	金融领域新闻，每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。	实体情感分析	情感分析
10	之江杯电商评论观点挖掘大赛	2019	之江实验室	本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点，并确认其情感极性和属性种类。对于商品的某一个属性特征，存在着一系列描述它的观点词，它们代表了消费者对该属性特征的观点。每一组{商品属性特征，消费者观点}具有相应的情感极性（负面、中性、正面），代表了消费者对该属性的满意程度。此外，多个属性特征可以归入某一个属性种类，例如外观、盒子等属性特征均可归入包装这个属性种类。参赛队伍最终需提交对测试数据的抽取预测信息，包括属性特征词、观点词、观点极性和属性种类4个字段。	属性情感分析	情感分析
11	2019搜狐校园算法大赛	2019	搜狐	给定若干文章，目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体，并分别判断文章对上述核心实体的情感倾向（积极、中立、消极三种）。实体：人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在，且可以作为文章主体的实体词。核心实体：文章主要描述、或担任文章主要角色的实体词。	实体情感分析	情感分析

文本分类

ID	标题	更新日期	数据集提供者	说明	关键字	类别	备注
1	[2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html)	2018年7月	达观数据	数据集来源于达观数据，为长文本分类任务，其主要包括了id，article，word_seg和class四个字段，数据包含19个类别，共102275

搜集汇总

数据集介绍

构建方式

CLUEDatasetSearch数据集的构建方式是通过网络爬取和用户上传的方式收集各类NLP任务的数据集信息，包括数据集的标题、更新日期、提供者、许可、说明、关键字、类别和论文地址等。数据集涵盖了命名实体识别、问答、情感分析、文本分类、文本匹配等多个NLP领域。

特点

CLUEDatasetSearch数据集的特点在于其全面性和多样性。它包含了多种语言的数据集，不仅限于中文，还包括英文等多种语言的数据集。数据集覆盖了NLP的多个任务类型，如命名实体识别、问答、情感分析等，为研究人员提供了丰富的资源选择。此外，数据集的更新和维护也比较活跃，能够反映最新的研究进展。

使用方法

使用CLUEDatasetSearch数据集的方法主要包括：首先，用户可以通过网页搜索或浏览的方式找到所需的数据集；其次，用户可以根据数据集的说明和论文链接了解数据集的具体内容和使用方法；最后，用户可以根据自己的研究需求下载数据集并进行相应的NLP任务研究。

背景与挑战

背景概述

CLUEDatasetSearch是一个中英文NLP数据集，旨在为研究人员提供方便获取和使用的资源。该数据集涵盖了多种NLP任务，如命名实体识别、问答、情感分析、文本分类、文本匹配等。创建于2018年，由清华大学等机构提供。数据集包含了丰富的中文和英文文本数据，适用于多种自然语言处理的研究和应用。

当前挑战

在构建和发布数据集的过程中，研究人员面临着数据收集、标注、质量控制、格式化处理等多方面的挑战。此外，数据集的使用者也面临着如何有效利用这些数据进行模型训练和评估的挑战。具体来说，数据集的挑战包括但不限于：1)保证数据的多样性和覆盖面；2)确保数据标注的准确性和一致性；3)处理和存储大规模数据集的效率问题；4)数据集的可持续更新和维护。

常用场景

经典使用场景

CLUEDatasetSearch是一个中英文NLP数据集搜索平台，用户可以通过该平台搜索到所需的中文和英文数据集，例如命名实体识别、问答、情感分析、文本分类、文本匹配等类型的数据集。其经典使用场景包括：

实际应用

在实际应用中，CLUEDatasetSearch可以用于：1. 教育培训，作为NLP相关课程的辅助教学资源；2. 学术研究，为研究者提供丰富的数据集资源；3. 企业研发，帮助企业开发更智能的NLP产品和服务。

衍生相关工作

基于CLUEDatasetSearch，以下相关工作得以开展：1. 对数据集进行深入分析，提出改进和优化的方法；2. 利用数据集进行模型训练和评估，推动NLP技术的进步；3. 开展跨领域的研究，如将NLP技术应用于金融、医疗等领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集