five

CLUEDatasetSearch

收藏
github2021-10-12 更新2024-05-31 收录
下载链接:
https://github.com/liutianling/CLUEDatasetSearch
下载链接
链接失效反馈
官方服务:
资源简介:
中英文NLP数据集,包含多个领域的数据集,如NER、QA、情感分析等,数据来源于不同的组织和项目,用于NLP研究和开发。

The Chinese-English NLP dataset encompasses a variety of domain-specific datasets, including Named Entity Recognition (NER), Question Answering (QA), sentiment analysis, among others. These datasets are sourced from diverse organizations and projects, and are utilized for NLP research and development.
创建时间:
2020-05-21
原始信息汇总

数据集概述

命名实体识别(NER)

ID 标题 更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注
1 CCKS2017中文电子病例命名实体识别 2017年5月 北京极目云健康科技有限公司 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 电子病历 命名实体识别 中文
2 CCKS2018中文电子病例命名实体识别 2018年 医渡云(北京)技术有限公司 CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 电子病历 命名实体识别 中文
3 微软亚研院MSRA命名实体识别识别数据集 MSRA 数据来源于MSRA,标注形式为BIO,共有46365条语料 Msra 命名实体识别 中文
4 1998人民日报语料集实体识别标注集 1998年1月 人民日报 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 98人民日报 命名实体识别 中文
5 Boson 玻森数据 数据来源为Boson,标注形式为BMEO,共有2000条语料 Boson 命名实体识别 中文
6 CLUE Fine-Grain NER 2020年 CLUE CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 细粒度;CULE 命名实体识别 中文
7 CoNLL-2003 2003 CNTS - Language Technology Group 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 CoNLL-2003 命名实体识别 论文 英文
8 微博实体识别 2015年 https://github.com/hltcoe/golden-horse EMNLP-2015 命名实体识别
9 SIGHAN Bakeoff 2005 2005年 MSR/PKU bakeoff-2005 命名实体识别

问答(QA)

ID 标题 更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注
1 NewsQA 2019/9/13 微软研究院 Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 英文 QA 论文
2 SQuAD 斯坦福 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 英文 QA 论文
3 SimpleQuestions Facebook 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 英文 QA 论文
4 WikiQA 2016/7/14 微软研究院 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 英文 QA 论文
5 cMedQA 2019/2/25 Zhang Sheng 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。 中文 QA 论文
6 cMedQA2 2019/1/9 Zhang Sheng cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。 中文 QA 论文
7 webMedQA 2019/3/10 He Junqing 一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。 中文 QA 论文
8 XQA 2019/7/29 清华大学 该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。 多语言 QA 论文
9 AmazonQA 2019/9/29 亚马逊 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 英文 QA 论文

情感分析

ID 标题 更新日期 数据集提供者 许可 说明 关键字 类别 论文地址 备注
1 NLPCC2013 2013 CCF 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 条微博, 45 431句子 NLPCC2013, Emotion 情感分析 论文
2 NLPCC2014 Task1 2014 CCF 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000条微博 NLPCC2014, Emotion 情感分析
3 NLPCC2014 Task2 2014 CCF 微博语料,标注了正面和负面 NLPCC2014, Sentiment 情感分析
4 Weibo Emotion Corpus 2016 The Hong Kong Polytechnic University 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四万多条微博 weibo emotion corpus 情感分析 Emotion Corpus Construction Based on Selection from Noisy Natural Labels
5 [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) 2009 Fuji Ren 标注的博客语料库,在文档级、段落级和句子级标注了emotion和sentiment。包含了1500个博客,11000段落和35000句子。 RenCECPs, emotion, sentiment 情感分析 Construction of a blog emotion corpus for Chinese emotional expression analysis
6 weibo_senti_100k 不详 不详 带情感标注 新浪微博,正负向评论约各 5 万条 weibo senti, sentiment 情感分析
7 BDCI2018-汽车行业用户观点主题及情感识别 2018 CCF 汽车论坛中对汽车的评论,标注了汽车的诗歌主题:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签,情感分为3类,分别用数字0、1、-1表示中立、正向、负向。 属性情感分析 主题情感分析 情感分析
8 AI Challenger 细粒度用户评论情感分析 2o18 美团 餐饮评论,6个一级属性,20个二级属性,每个属性标注正面、负面、中性、未提及。 属性情感分析 情感分析
9 BDCI2019金融信息负面及主体判定 2019 中原银行 金融领域新闻,每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。 实体情感分析 情感分析
10 之江杯电商评论观点挖掘大赛 2019 之江实验室 本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度。此外,多个属性特征可以归入某一个属性种类,例如外观、盒子等属性特征均可归入包装这个属性种类。参赛队伍最终需提交对测试数据的抽取预测信息,包括属性特征词、观点词、观点极性和属性种类4个字段。 属性情感分析 情感分析
11 2019搜狐校园算法大赛 2019 搜狐 给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。实体:人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的实体词。核心实体:文章主要描述、或担任文章主要角色的实体词。 实体情感分析 情感分析

文本分类

| ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ---- | ------------------------------------------------------------ | ------------- | --------------------------------------------------------

搜集汇总
数据集介绍
main_image_url
构建方式
CLUEDatasetSearch数据集的构建方式主要依赖于网络资源的整合与标注。该数据集涵盖了多个自然语言处理任务,包括命名实体识别、问答系统、情感分析、文本分类等。数据来源广泛,包括公开的竞赛数据集、学术研究数据集以及社交媒体数据。每个子数据集都经过严格的筛选和标注,确保数据的质量和适用性。此外,数据集还支持用户贡献,通过上传和审核机制,不断丰富和更新数据集内容。
特点
CLUEDatasetSearch数据集的特点在于其多样性和广泛性。数据集不仅涵盖了中文和英文的多种自然语言处理任务,还包含了从新闻、社交媒体到专业领域(如医学、金融)的多种数据类型。每个子数据集都经过详细的标注和分类,便于研究者根据具体任务需求进行选择和使用。此外,数据集还提供了丰富的元数据信息,如数据来源、更新日期、许可信息等,增强了数据的透明度和可追溯性。
使用方法
CLUEDatasetSearch数据集的使用方法灵活多样。研究者可以通过GitHub页面访问数据集的详细信息和下载链接,根据具体任务需求选择合适的子数据集。数据集支持多种格式,如CSV、JSON等,便于直接导入到各种机器学习框架中进行处理和分析。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手。对于希望贡献数据的研究者,可以通过上传数据集信息的方式参与项目,丰富数据集内容。
背景与挑战
背景概述
CLUEDatasetSearch是一个专注于中文自然语言处理(NLP)的数据集集合,由CLUE(Chinese Language Understanding Evaluation)团队整理和发布。该数据集涵盖了多个NLP任务,包括命名实体识别(NER)、问答系统(QA)、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库和阅读理解等。CLUEDatasetSearch的创建旨在为中文NLP研究提供一个全面的资源库,促进中文语言理解技术的发展。自2020年发布以来,该数据集已成为中文NLP领域的重要参考,广泛应用于学术研究和工业应用中。
当前挑战
CLUEDatasetSearch面临的挑战主要包括两个方面。首先,中文语言的复杂性和多样性使得构建高质量、多样化的数据集变得尤为困难。例如,中文的词汇丰富、语法灵活,且存在大量的同义词和多义词,这对命名实体识别和情感分析等任务提出了更高的要求。其次,数据集的构建过程中,如何确保数据的准确性和代表性也是一个重要挑战。由于数据集来源于网络,数据的质量和标注的准确性可能参差不齐,且可能存在版权和隐私问题。此外,如何有效地整合和更新数据集,以适应不断变化的语言使用习惯和技术需求,也是CLUEDatasetSearch需要持续解决的问题。
常用场景
经典使用场景
CLUEDatasetSearch数据集广泛应用于自然语言处理(NLP)领域,特别是在中文文本处理任务中。该数据集涵盖了命名实体识别(NER)、问答系统(QA)、情感分析、文本分类、文本匹配等多个子领域,为研究人员提供了丰富的实验数据。通过该数据集,研究者可以训练和评估各种NLP模型,尤其是在中文语境下的模型性能。
衍生相关工作
CLUEDatasetSearch数据集催生了许多经典的NLP研究工作。例如,基于该数据集的命名实体识别模型在多个中文NER评测任务中取得了领先的成绩。此外,情感分析领域的研究者利用该数据集开发了多种情感分类算法,进一步推动了中文情感分析技术的发展。文本匹配任务中,基于该数据集的模型在意图识别和问句匹配等任务中也表现出色,推动了智能对话系统的发展。
数据集最近研究
最新研究方向
近年来,CLUEDatasetSearch数据集在自然语言处理领域的研究方向主要集中在细粒度命名实体识别(NER)、问答系统(QA)以及情感分析等方面。特别是在中文电子病历的命名实体识别任务中,研究者们利用该数据集中的CCKS2017和CCKS2018数据集,开发了多种深度学习模型,以提高对解剖部位、症状描述等复杂实体的识别精度。此外,问答系统领域的研究者则借助NewsQA和SQuAD等数据集,探索了基于预训练语言模型的问答系统,显著提升了系统的理解和推理能力。情感分析方面,研究者们利用NLPCC2013和Weibo Emotion Corpus等数据集,开发了多模态情感分析模型,结合文本和图像信息,进一步提升了对微博等社交媒体数据的分析效果。这些研究不仅推动了NLP技术的发展,也为实际应用场景如医疗、金融等领域提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作