CLUEDatasetSearch

github2020-11-20 更新2024-05-31 收录

下载链接：

https://github.com/zouxiaoyuonly/CLUEDatasetSearch

下载链接

链接失效反馈

官方服务：

资源简介：

中英文NLP数据集搜索平台，提供多种中文和英文NLP数据集的详细信息，包括数据集的来源、更新日期、提供者等。

A Chinese-English NLP dataset search platform that provides detailed information on various Chinese and English NLP datasets, including the source of the datasets, update dates, and providers.

创建时间：

2020-11-20

原始信息汇总

数据集概述

命名实体识别（NER）

ID	标题	更新日期	数据集提供者	说明	关键字	类别	备注
1	CCKS2017中文电子病例命名实体识别	2017年5月	北京极目云健康科技有限公司	数据来源于其云医院平台的真实电子病历数据，共计800条（单个病人单次就诊记录），经脱敏处理	电子病历	命名实体识别	中文
2	CCKS2018中文电子病例命名实体识别	2018年	医渡云（北京）技术有限公司	CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体	电子病历	命名实体识别	中文
3	微软亚研院MSRA命名实体识别识别数据集		MSRA	数据来源于MSRA，标注形式为BIO，共有46365条语料	Msra	命名实体识别	中文
4	1998人民日报语料集实体识别标注集	1998年1月	人民日报	数据来源为98年人民日报，标注形式为BIO，共有23061条语料	98人民日报	命名实体识别	中文
5	Boson		玻森数据	数据来源为Boson，标注形式为BMEO,共有2000条语料	Boson	命名实体识别	中文
6	CLUE Fine-Grain NER	2020年	CLUE	CLUENER2020数据集，是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注，原数据来源于Sina News RSS。数据包含10个标签类别，训练集共有10748条语料，验证集共有1343条语料	细粒度；CULE	命名实体识别	中文
7	CoNLL-2003	2003	CNTS - Language Technology Group	数据来源于CoNLL-2003的任务，该数据标注了包括PER, LOC, ORG和MISC的四个类别	CoNLL-2003	命名实体识别	英文
8	微博实体识别	2015年	https://github.com/hltcoe/golden-horse	EMNLP-2015	命名实体识别
9	SIGHAN Bakeoff 2005	2005年	MSR/PKU	bakeoff-2005	命名实体识别

问答（QA）

ID	标题	更新日期	数据集提供者	说明	关键字	类别	论文地址
1	NewsQA	2019/9/13	微软研究院	Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案，每篇文章平均616个单词，每个问题有2～3个答案。	英文	QA	论文
2	SQuAD		斯坦福	斯坦福问答数据集（SQuAD）是一个阅读理解数据集，由维基百科的一组文章上提出的问题组成，其中每个问题的答案都是一段文本，可能来自相应的阅读段落，或者问题可能是未解答的。	英文	QA	论文
3	SimpleQuestions		Facebook	基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集，数据集有100K简单问题的回答。	英文	QA	论文
4	WikiQA	2016/7/14	微软研究院	为了反映一般用户的真实信息需求，WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息，所以使用本节中的句子作为候选答案。在众包的帮助下，数据集中包括3047个问题和29258个句子，其中1473个句子被标记为对应问题的回答句子。	英文	QA	论文
5	cMedQA	2019/2/25	Zhang Sheng	医学在线论坛的数据，包含5.4万个问题，及对应的约10万个回答。	中文	QA	论文
6	cMedQA2	2019/1/9	Zhang Sheng	cMedQA的扩展版，包含约10万个医学相关问题，及对应的约20万个回答。	中文	QA	论文
7	webMedQA	2019/3/10	He Junqing	一个医学在线问答数据集，包含6万个问题和31万个回答，而且包含问题的类别。	中文	QA	论文
8	XQA	2019/7/29	清华大学	该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集，该数据集（训练集、测试集）主要包括九种语言，9万多个问答。	多语言	QA	论文
9	AmazonQA	2019/9/29	亚马逊	卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点，提出了基于评论的QA模型任务，即利用先前对某一产品的问答，QA系统自动总结出一个答案给客户	英文	QA	论文

情感分析

ID	标题	更新日期	数据集提供者	说明	关键字	类别	论文地址
1	NLPCC2013	2013	CCF	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小：14 000 条微博, 45 431句子	NLPCC2013, Emotion	情感分析	论文
2	NLPCC2014 Task1	2014	CCF	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小：20000条微博	NLPCC2014, Emotion	情感分析
3	NLPCC2014 Task2	2014	CCF	微博语料，标注了正面和负面	NLPCC2014, Sentiment	情感分析
4	Weibo Emotion Corpus	2016	The Hong Kong Polytechnic University	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小：四万多条微博	weibo emotion corpus	情感分析	Emotion Corpus Construction Based on Selection from Noisy Natural Labels
5	[RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.)	2009	Fuji Ren	标注的博客语料库，在文档级、段落级和句子级标注了emotion和sentiment。包含了1500个博客，11000段落和35000句子。	RenCECPs, emotion, sentiment	情感分析	Construction of a blog emotion corpus for Chinese emotional expression analysis
6	weibo_senti_100k	不详	不详	带情感标注新浪微博，正负向评论约各 5 万条	weibo senti, sentiment	情感分析
7	BDCI2018-汽车行业用户观点主题及情感识别	2018	CCF	汽车论坛中对汽车的评论，标注了汽车的诗歌主题：动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签，情感分为3类，分别用数字0、1、-1表示中立、正向、负向。	属性情感分析主题情感分析	情感分析
8	AI Challenger 细粒度用户评论情感分析	2o18	美团	餐饮评论，6个一级属性，20个二级属性，每个属性标注正面、负面、中性、未提及。	属性情感分析	情感分析
9	BDCI2019金融信息负面及主体判定	2019	中原银行	金融领域新闻，每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。	实体情感分析	情感分析
10	之江杯电商评论观点挖掘大赛	2019	之江实验室	本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点，并确认其情感极性和属性种类。对于商品的某一个属性特征，存在着一系列描述它的观点词，它们代表了消费者对该属性特征的观点。每一组{商品属性特征，消费者观点}具有相应的情感极性（负面、中性、正面），代表了消费者对该属性的满意程度。此外，多个属性特征可以归入某一个属性种类，例如外观、盒子等属性特征均可归入包装这个属性种类。参赛队伍最终需提交对测试数据的抽取预测信息，包括属性特征词、观点词、观点极性和属性种类4个字段。	属性情感分析	情感分析
11	2019搜狐校园算法大赛	2019	搜狐	给定若干文章，目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体，并分别判断文章对上述核心实体的情感倾向（积极、中立、消极三种）。实体：人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在，且可以作为文章主体的实体词。核心实体：文章主要描述、或担任文章主要角色的实体词。	实体情感分析	情感分析

文本分类

ID	标题	更新日期	数据集提供者	说明	关键字	类别	备注
1	[2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html)	2018年7月	达观数据	数据集来源于达观数据，为长文本分类任务，其主要包括了id，article，word_seg和class四个字段，数据包含19个类别，共102275条样本	长文本；脱敏

搜集汇总

数据集介绍

构建方式

CLUEDatasetSearch数据集通过整合网络公开的中英文NLP数据集构建而成，涵盖了命名实体识别、问答系统、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库和阅读理解等多个自然语言处理任务。数据集的构建依赖于社区贡献，用户可以通过上传数据集信息参与贡献，经过审核后，贡献者将被列为项目贡献者。数据集来源广泛，包括学术竞赛、企业数据和开源社区，确保了数据的多样性和代表性。

使用方法

CLUEDatasetSearch数据集的使用方法灵活多样，适用于多种自然语言处理任务的研究和开发。用户可以通过GitHub页面访问数据集的详细信息，并根据需求下载特定任务的数据。数据集提供了清晰的分类和标注，便于用户进行模型训练和评估。此外，用户还可以通过上传数据集信息参与数据集的扩展和优化，贡献者将被列为项目贡献者。对于数据集的任何问题，用户可以通过GitHub的issue系统提出反馈，确保数据集的持续改进和更新。

背景与挑战

背景概述

CLUEDatasetSearch是一个专注于中文自然语言处理（NLP）的数据集集合，由CLUE组织创建并维护。该数据集涵盖了多个NLP任务，包括命名实体识别（NER）、问答系统（QA）、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库和阅读理解等。CLUEDatasetSearch的创建旨在为研究人员和开发者提供一个全面、多样化的中文NLP数据集资源，以推动中文语言处理技术的发展。该数据集自2020年发布以来，已成为中文NLP领域的重要参考资源，广泛应用于学术研究和工业界应用中。

当前挑战

CLUEDatasetSearch面临的挑战主要包括两个方面。首先，数据集所涵盖的NLP任务多样且复杂，每个任务都有其独特的难点。例如，命名实体识别任务需要处理中文文本中的实体边界模糊问题，而情感分析任务则需要准确捕捉文本中的情感倾向。其次，数据集的构建过程中也面临诸多挑战，包括数据来源的多样性、数据标注的准确性以及数据隐私保护等问题。此外，由于中文语言的复杂性，如何确保数据集的代表性和广泛适用性也是一个重要的挑战。这些挑战要求研究者在数据集的构建和使用过程中，不断优化数据处理流程，提升数据质量，以应对日益复杂的NLP任务需求。

常用场景

经典使用场景

CLUEDatasetSearch数据集广泛应用于自然语言处理（NLP）领域，特别是在中文文本处理任务中。该数据集涵盖了命名实体识别（NER）、问答系统（QA）、情感分析、文本分类、文本匹配等多个子领域，为研究人员提供了丰富的实验数据。例如，在命名实体识别任务中，数据集中的电子病历和新闻语料被广泛用于训练和评估模型，帮助提升模型在中文环境下的实体识别能力。

解决学术问题

CLUEDatasetSearch数据集解决了NLP领域中的多个关键问题，尤其是在中文语境下的挑战。通过提供多样化的标注数据，该数据集帮助研究人员解决了中文命名实体识别中的细粒度标注问题、问答系统中的意图匹配问题以及情感分析中的多类别情感分类问题。这些问题的解决不仅推动了中文NLP技术的发展，还为跨语言NLP研究提供了宝贵的参考。

实际应用

在实际应用中，CLUEDatasetSearch数据集被广泛应用于智能客服、医疗信息处理、社交媒体分析等领域。例如，在医疗领域，数据集中的电子病历数据被用于开发自动化病历分析系统，帮助医生快速提取关键信息。在社交媒体分析中，情感分析数据集被用于监测公众情绪，为企业提供市场反馈和舆情分析支持。

数据集最近研究