CLUEDatasetSearch

github2020-05-15 更新2024-05-31 收录

下载链接：

https://github.com/zldeng/CLUEDatasetSearch

下载链接

链接失效反馈

官方服务：

资源简介：

中英文NLP数据集，涵盖了NER、QA、情感分析等多个领域，数据集来源广泛，包括CCKS、MSRA、人民日报等，用于支持NLP研究和应用。

The Chinese-English NLP dataset encompasses various domains such as Named Entity Recognition (NER), Question Answering (QA), and Sentiment Analysis. It is sourced from a wide range of references including CCKS, MSRA, and the People's Daily, aimed at supporting NLP research and applications.

创建时间：

2020-02-24

原始信息汇总

数据集概述

命名实体识别（NER）

ID	标题	数据集更新日期	数据集提供者	关键字	类别	备注
1	CCKS2017中文电子病例命名实体识别	2017年5月	北京极目云健康科技有限公司	电子病历	命名实体识别	中文
2	CCKS2018中文电子病例命名实体识别	2018年	医渡云（北京）技术有限公司	电子病历	命名实体识别	中文
3	微软亚研院MSRA命名实体识别识别数据集		MSRA	Msra	命名实体识别	中文
4	1998人民日报语料集实体识别标注集	1998年1月	人民日报	98人民日报	命名实体识别	中文
5	Boson		玻森数据	Boson	命名实体识别	中文
6	CLUE Fine-Grain NER	2020年	CLUE	细粒度；CULE	命名实体识别	中文
7	CoNLL-2003	2003	CNTS - Language Technology Group	CoNLL-2003	命名实体识别	英文
8	微博实体识别	2015年	https://github.com/hltcoe/golden-horse	EMNLP-2015	命名实体识别
9	SIGHAN Bakeoff 2005	2005年	MSR/PKU	bakeoff-2005	命名实体识别

问答（QA）

ID	标题	数据集更新日期	数据集提供者	关键字	类别
1	NewsQA	2019/9/13	微软研究院	英文	QA
2	SQuAD		斯坦福	英文	QA
3	SimpleQuestions		Facebook	英文	QA
4	WikiQA	2016/7/14	微软研究院	英文	QA
5	cMedQA	2019/2/25	Zhang Sheng	中文	QA
6	cMedQA2	2019/1/9	Zhang Sheng	中文	QA
7	webMedQA	2019/3/10	He Junqing	中文	QA
8	XQA	2019/7/29	清华大学	多语言	QA
9	AmazonQA	2019/9/29	亚马逊	英文	QA

情感分析

ID	标题	数据集更新日期	数据集提供者	关键字	类别
1	NLPCC2013	2013	CCF	NLPCC2013, Emotion	情感分析
2	NLPCC2014 Task1	2014	CCF	NLPCC2014, Emotion	情感分析
3	NLPCC2014 Task2	2014	CCF	NLPCC2014, Sentiment	情感分析
4	Weibo Emotion Corpus	2016	The Hong Kong Polytechnic University	weibo emotion corpus	情感分析
5	[RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.)	2009	Fuji Ren	RenCECPs, emotion, sentiment	情感分析
6	weibo_senti_100k	不详	不详	weibo senti, sentiment	情感分析
7	BDCI2018-汽车行业用户观点主题及情感识别	2018	CCF	属性情感分析主题情感分析	情感分析
8	AI Challenger 细粒度用户评论情感分析	2o18	美团	属性情感分析	情感分析
9	BDCI2019金融信息负面及主体判定	2019	中原银行	实体情感分析	情感分析
10	之江杯电商评论观点挖掘大赛	2019	之江实验室	属性情感分析	情感分析
11	2019搜狐校园算法大赛	2019	搜狐	实体情感分析	情感分析

文本分类

ID	标题	数据集更新日期	数据集提供者	关键字	类别	备注
1	[2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html)	2018年7月	达观数据	长文本；脱敏	文本分类	中文
2	今日头条中文新闻（文本）分类	2018年5月	今日头条	短文本；新闻	文本分类	中文
3	THUCNews中文文本分类	2016年	清华大学	文档；新闻	文本分类	中文
4	复旦大学中文文本分类		复旦大学计算机信息与技术系国际数据库中心自然语言处理小组	文档；新闻	文本分类	中文
5	新闻标题短文本分类	2019年12月	chenfengshf	短文本；新闻标题	文本分类	中文
6	2017 知乎看山杯机器学习挑战赛	2017年6月	中国人工智能学会;知乎	问题；短文本	文本分类	中文
7	2019之江杯-电商评论观点挖掘大赛	2019年8月	之江实验室	评论；短文本	文本分类	中文
8	IFLYTEK 长文本分类		科大讯飞	长文本	文本分类	中文
9	全网新闻分类数据(SogouCA)	2012年8月16号	搜狗	新闻	文本分类	中文
10	搜狐新闻数据(SogouCS)	2012年8月	搜狗	新闻	文本分类	中文

文本匹配

ID	标题	数据集更新日期	数据集提供者	关键字	类别
1	LCQMC	2018/6/6	哈工大(深圳)智能计算研究中心	大规模问句匹配；意图匹配	短文本匹配；问句匹配
2	The BQ Corpus	2018/9/4	哈工大(深圳)智能计算研究中心；微众银行	银行服务问句；意图匹配	短文本匹配；问句一致性检测
3	AFQMC 蚂蚁金融语义相似度	2018/4/25	蚂蚁金服	金融问句	短文本匹配；问句匹配
4	第三届拍拍贷“魔镜杯”大赛	2018/6/10	拍拍贷智慧金融研究院	金融产品	短文本匹配；问句匹配

搜集汇总

数据集介绍

构建方式

CLUEDatasetSearch数据集的构建主要通过网络爬虫收集来自不同领域的中英文NLP数据集，并对收集到的数据进行整理和标注，形成了一个包含多种NLP任务的数据集集合。

特点

该数据集的特点在于其多样性，覆盖了命名实体识别、问答、情感分析、文本分类、文本匹配等多种NLP任务，且包含了中英文两种语言的数据，适用于不同场景和需求。

使用方法

用户可以通过数据集的GitHub页面搜索和下载所需的数据集，每个数据集都提供了详细的说明和示例，用户可以根据自己的需求进行选择和使用。对于有特定许可要求的数据集，用户需遵守相应的许可协议。

背景与挑战

背景概述

CLUEDatasetSearch是一个中英文NLP数据集，旨在为研究人员提供丰富的数据资源，以促进自然语言处理领域的发展。该数据集包含了多种类型的数据，如命名实体识别、问答、情感分析、文本分类、文本匹配等，涵盖了自然语言处理的多个方面。数据集的创建时间为2018年，主要研究人员或机构包括清华大学、微软研究院、蚂蚁金服等。该数据集对相关领域的影响力体现在其被广泛应用于学术研究和工业界，推动了自然语言处理技术的进步。

当前挑战

数据集构建过程中遇到的挑战主要包括：1)确保数据的多样性和质量，以适应不同的研究需求；2)数据标注的一致性和准确性，这对于训练高效的自然语言处理模型至关重要；3)数据集的规模和更新速度，以满足不断增长的研究需求。在所解决的领域问题方面，例如问答数据集需要解决如何准确理解问题意图和检索相关答案的挑战；文本分类数据集则需解决如何处理长文本和短文本的不同特性，以及如何平衡不同类别的数据分布等问题。

常用场景

经典使用场景

CLUEDatasetSearch是一个中英文NLP数据集，其中包含多种类型的任务，如命名实体识别、问答、情感分析、文本分类和文本匹配等。其经典使用场景在于为自然语言处理研究提供丰富的数据资源，使得研究者能够在此基础上开展各种语言处理任务，如构建模型进行文本分类、情感分析、实体识别等。

实际应用

在实际应用中，CLUEDatasetSearch可以用于构建智能问答系统、情感分析工具、文本自动分类器等，这些应用能够帮助提高信息处理的效率，为用户提供更加精准的服务。

衍生相关工作

基于CLUEDatasetSearch，研究者们已经衍生出了一系列相关工作，如构建特定领域的文本分类模型、开发情感分析工具、以及设计用于实体识别和文本匹配的算法等。这些工作推动了NLP领域的发展，并为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集