CLUEDatasetSearch

github2020-02-27 更新2024-05-31 收录

下载链接：

https://github.com/jackyyvan/CLUEDatasetSearch

下载链接

链接失效反馈

官方服务：

资源简介：

中英文NLP数据集，提供搜索功能，用户可以上传数据集信息，涵盖NER、QA、情感分析等多个领域。

A Chinese-English NLP dataset offering search functionality, allowing users to upload dataset information, covering multiple domains such as Named Entity Recognition (NER), Question Answering (QA), and sentiment analysis.

创建时间：

2020-02-24

原始信息汇总

数据集概述

命名实体识别（NER）

ID	标题	数据集更新日期	数据集提供者	关键字	类别	备注
1	CCKS2017中文电子病例命名实体识别	2017年5月	北京极目云健康科技有限公司	电子病历	命名实体识别	中文
2	CCKS2018中文电子病例命名实体识别	2018年	医渡云（北京）技术有限公司	电子病历	命名实体识别	中文
3	微软亚研院MSRA命名实体识别识别数据集		MSRA	Msra	命名实体识别	中文
4	1998人民日报语料集实体识别标注集	1998年1月	人民日报	98人民日报	命名实体识别	中文
5	Boson		玻森数据	Boson	命名实体识别	中文
6	CLUE Fine-Grain NER	2020年	CLUE	细粒度；CULE	命名实体识别	中文
7	CoNLL-2003	2003	CNTS - Language Technology Group	CoNLL-2003	命名实体识别	英文
8	微博实体识别	2015年	https://github.com/hltcoe/golden-horse	EMNLP-2015	命名实体识别
9	SIGHAN Bakeoff 2005	2005年	MSR/PKU	bakeoff-2005	命名实体识别

问答（QA）

ID	标题	数据集更新日期	数据集提供者	关键字	类别
1	NewsQA	2019/9/13	微软研究院	英文	QA
2	SQuAD		斯坦福	英文	QA
3	SimpleQuestions		Facebook	英文	QA
4	WikiQA	2016/7/14	微软研究院	英文	QA
5	cMedQA	2019/2/25	Zhang Sheng	中文	QA
6	cMedQA2	2019/1/9	Zhang Sheng	中文	QA
7	webMedQA	2019/3/10	He Junqing	中文	QA
8	XQA	2019/7/29	清华大学	多语言	QA
9	AmazonQA	2019/9/29	亚马逊	英文	QA

情感分析

ID	标题	数据集更新日期	数据集提供者	关键字	类别
1	NLPCC2013	2013	CCF	NLPCC2013, Emotion	情感分析
2	NLPCC2014 Task1	2014	CCF	NLPCC2014, Emotion	情感分析
3	NLPCC2014 Task2	2014	CCF	NLPCC2014, Sentiment	情感分析
4	Weibo Emotion Corpus	2016	The Hong Kong Polytechnic University	weibo emotion corpus	情感分析
5	[RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.)	2009	Fuji Ren	RenCECPs, emotion, sentiment	情感分析
6	weibo_senti_100k	不详	不详	weibo senti, sentiment	情感分析
7	BDCI2018-汽车行业用户观点主题及情感识别	2018	CCF	属性情感分析主题情感分析	情感分析
8	AI Challenger 细粒度用户评论情感分析	2o18	美团	属性情感分析	情感分析
9	BDCI2019金融信息负面及主体判定	2019	中原银行	实体情感分析	情感分析
10	之江杯电商评论观点挖掘大赛	2019	之江实验室	属性情感分析	情感分析
11	2019搜狐校园算法大赛	2019	搜狐	实体情感分析	情感分析

文本分类

ID	标题	数据集更新日期	数据集提供者	关键字	类别	备注
1	[2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html)	2018年7月	达观数据	长文本；脱敏	文本分类	中文
2	今日头条中文新闻（文本）分类	2018年5月	今日头条	短文本；新闻	文本分类	中文
3	THUCNews中文文本分类	2016年	清华大学	文档；新闻	文本分类	中文
4	复旦大学中文文本分类		复旦大学计算机信息与技术系国际数据库中心自然语言处理小组	文档；新闻	文本分类	中文
5	新闻标题短文本分类	2019年12月	chenfengshf	短文本；新闻标题	文本分类	中文
6	2017 知乎看山杯机器学习挑战赛	2017年6月	中国人工智能学会;知乎	问题；短文本	文本分类	中文
7	2019之江杯-电商评论观点挖掘大赛	2019年8月	之江实验室	评论；短文本	文本分类	中文
8	IFLYTEK 长文本分类		科大讯飞	长文本	文本分类	中文
9	全网新闻分类数据(SogouCA)	2012年8月16号	搜狗	新闻	文本分类	中文
10	搜狐新闻数据(SogouCS)	2012年8月	搜狗	新闻	文本分类	中文

文本匹配

ID	标题	数据集更新日期	数据集提供者	关键字	类别
1	LCQMC	2018/6/6	哈工大(深圳)智能计算研究中心	大规模问句匹配；意图匹配	短文本匹配；问句匹配
2	The BQ Corpus	2018/9/4	哈工大(深圳)智能计算研究中心；微众银行	银行服务问句；意图匹配	短文本匹配；问句一致性检测
3	AFQMC 蚂蚁金融语义相似度	2018/4/25	蚂蚁金服	金融问句	短文本匹配；问句匹配
4	第三届拍拍贷“魔镜杯”大赛	2018/6/10	拍拍贷智慧金融研究院	金融产品	短文本匹配；问句匹配

搜集汇总

数据集介绍

构建方式

CLUEDatasetSearch是一个中英文NLP数据集，它通过网络搜集和整理了多种类型的NLP任务数据，包括命名实体识别、问答、情感分析、文本分类、文本匹配等。数据集的构建主要依赖于网络资源的整理和用户贡献，例如通过GitHub等平台收集开源的数据集信息，以及用户上传的数据集。构建过程中注重数据的多样性和质量，以满足不同NLP任务的需求。

使用方法

用户可以通过数据集的官方网站或者GitHub仓库来获取数据。在获取数据后，用户需要根据具体的使用场景和任务类型来处理和格式化数据。例如，对于文本分类任务，用户可能需要预处理文本数据，将其转化为适合模型训练的格式。对于问答任务，用户需要理解数据集中的标注规则，以便正确地训练和评估模型。

背景与挑战

背景概述

CLUEDatasetSearch是一个中英文NLP数据集，提供了多种类型的NLP任务相关数据，如命名实体识别、问答、情感分析、文本分类、文本匹配等。该数据集创建于2018年，由北京极目云健康科技有限公司、微软研究院、斯坦福大学等机构或个人提供数据。数据集涵盖了从1998人民日报语料集到2020年的CLUE Fine-Grain NER等多个数据集，包含了中文和英文数据，旨在为NLP研究提供丰富的资源。

当前挑战

数据集构建过程中遇到的挑战主要包括：1)确保数据的多样性和质量，以适应不同的NLP任务需求；2)数据标注的一致性和准确性，尤其是在细粒度任务中，如命名实体识别和情感分析；3)大规模数据集的存储和分发问题；4)数据集的持续更新和维护。对于研究领域问题，如文本分类面临的挑战包括：如何处理长文本和短文本分类任务，以及如何提高分类的准确性和效率。

常用场景

经典使用场景

CLUEDatasetSearch是一个中英文NLP数据集，广泛应用于自然语言处理领域，如命名实体识别、情感分析、文本分类、文本匹配等任务。其经典使用场景包括作为训练和测试数据集，用于模型训练和性能评估。

解决学术问题

该数据集解决了NLP领域中的多个学术研究问题，包括如何提高命名实体识别的准确率、如何进行有效的情感分析、如何实现精准的文本分类以及如何提升文本匹配的效果等。它提供了丰富的数据资源，帮助研究者们验证和改进算法。

实际应用

在实际应用中，CLUEDatasetSearch可以用于构建智能问答系统、情感分析工具、文本自动分类器以及搜索引擎中的文本匹配模块等。这些应用能够提高信息处理的效率，为用户提供更加智能的服务体验。

数据集最近研究