CLUEDatasetSearch
收藏github2023-10-18 更新2024-05-31 收录
下载链接:
https://github.com/fengwuyun/CLUEDatasetSearch
下载链接
链接失效反馈官方服务:
资源简介:
中英文NLP数据集,涵盖NER、QA、情感分析、文本分类等多个领域,数据来源于不同的提供者,用于NLP研究和应用。
A Chinese-English NLP dataset covering multiple domains such as Named Entity Recognition (NER), Question Answering (QA), sentiment analysis, and text classification. The data is sourced from various providers and is intended for NLP research and applications.
创建时间:
2020-03-21
原始信息汇总
数据集概述
命名实体识别(NER)
| ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|---|
| 1 | CCKS2017中文电子病例命名实体识别 | 2017年5月 | 北京极目云健康科技有限公司 | 数据来源于其云医院平台的真实电子病历数据,共计800条,经脱敏处理 | 电子病历 | 命名实体识别 | 中文 |
| 2 | CCKS2018中文电子病例命名实体识别 | 2018年 | 医渡云(北京)技术有限公司 | CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 | 电子病历 | 命名实体识别 | 中文 |
| 3 | 微软亚研院MSRA命名实体识别识别数据集 | MSRA | 数据来源于MSRA,标注形式为BIO,共有46365条语料 | Msra | 命名实体识别 | 中文 | |
| 4 | 1998人民日报语料集实体识别标注集 | 1998年1月 | 人民日报 | 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 | 98人民日报 | 命名实体识别 | 中文 |
| 5 | Boson | 玻森数据 | 数据来源为Boson,标注形式为BMEO,共有2000条语料 | Boson | 命名实体识别 | 中文 | |
| 6 | CLUE Fine-Grain NER | 2020年 | CLUE | CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 | 细粒度;CULE | 命名实体识别 | 中文 |
| 7 | CoNLL-2003 | 2003 | CNTS - Language Technology Group | 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 | CoNLL-2003 | 命名实体识别 | 英文 |
| 8 | 微博实体识别 | 2015年 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | 命名实体识别 | 中文 | |
| 9 | SIGHAN Bakeoff 2005 | 2005年 | MSR/PKU | bakeoff-2005 | 命名实体识别 | 中文 |
问答(QA)
| ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|---|
| 1 | NewsQA | 2019/9/13 | 微软研究院 | Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 | 英文 | QA | |
| 2 | SQuAD | 斯坦福 | 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 | 英文 | QA | ||
| 3 | SimpleQuestions | 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 | 英文 | QA | |||
| 4 | WikiQA | 2016/7/14 | 微软研究院 | 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 | 英文 | QA | |
| 5 | cMedQA | 2019/2/25 | Zhang Sheng | 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。 | 中文 | QA | |
| 6 | cMedQA2 | 2019/1/9 | Zhang Sheng | cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。 | 中文 | QA | |
| 7 | webMedQA | 2019/3/10 | He Junqing | 一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。 | 中文 | QA | |
| 8 | XQA | 2019/7/29 | 清华大学 | 该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。 | 多语言 | QA | |
| 9 | AmazonQA | 2019/9/29 | 亚马逊 | 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 | 英文 | QA |
情感分析
| ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 条微博, 45 431句子 | NLPCC2013, Emotion | 情感分析 | |
| 2 | NLPCC2014 Task1 | 2014 | CCF | 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000条微博 | NLPCC2014, Emotion | 情感分析 | |
| 3 | NLPCC2014 Task2 | 2014 | CCF | 微博语料,标注了正面和负面 | NLPCC2014, Sentiment | 情感分析 | |
| 4 | Weibo Emotion Corpus | 2016 | The Hong Kong Polytechnic University | 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四万多条微博 | weibo emotion corpus | 情感分析 | |
| 5 | [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) | 2009 | Fuji Ren | 标注的博客语料库,在文档级、段落级和句子级标注了emotion和sentiment。包含了1500个博客,11000段落和35000句子。 | RenCECPs, emotion, sentiment | 情感分析 | |
| 6 | weibo_senti_100k | 不详 | 不详 | 带情感标注 新浪微博,正负向评论约各 5 万条 | weibo senti, sentiment | 情感分析 | |
| 7 | BDCI2018-汽车行业用户观点主题及情感识别 | 2018 | CCF | 汽车论坛中对汽车的评论,标注了汽车的诗歌主题:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签,情感分为3类,分别用数字0、1、-1表示中立、正向、负向。 | 属性情感分析 主题情感分析 | 情感分析 | |
| 8 | AI Challenger 细粒度用户评论情感分析 | 2o18 | 美团 | 餐饮评论,6个一级属性,20个二级属性,每个属性标注正面、负面、中性、未提及。 | 属性情感分析 | 情感分析 | |
| 9 | BDCI2019金融信息负面及主体判定 | 2019 | 中原银行 | 金融领域新闻,每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。 | 实体情感分析 | 情感分析 | |
| 10 | 之江杯电商评论观点挖掘大赛 | 2019 | 之江实验室 | 本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度。此外,多个属性特征可以归入某一个属性种类,例如外观、盒子等属性特征均可归入包装这个属性种类。参赛队伍最终需提交对测试数据的抽取预测信息,包括属性特征词、观点词、观点极性和属性种类4个字段。 | 属性情感分析 | 情感分析 | |
| 11 | 2019搜狐校园算法大赛 | 2019 | 搜狐 | 给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。实体:人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的实体词。核心实体:文章主要描述、或担任文章主要角色的实体词。 | 实体情感分析 | 情感分析 |
文本分类
| ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|---|
| 1 | [2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html) | 2018年7月 | 达观数据 | 数据集来源于达观数据,为长文本分类任务,其主要包括了id,article,word_seg和class四个字段,数据包含19个类别,共102275条样本 | 长文本;脱敏 | 文本分类 | 中文 |
| 2 | 今日头条中文新闻(文本)分类 | 2018年5月 | 今日头条 | 数据集来源于今日头条,为短文本分类任务,数据包含15个类别,共382688条样本 | 短文本;新闻 | 文本分类 | 中文 |
| 3 | THUCNews中文文本分类 | 2016年 | 清华大学 | THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,共74万篇新闻文档(2.19 GB) | 文档;新闻 | 文本分类 | 中文 |
| 4 | 复旦大学中文文本分类 | 复旦大学计算机信息与技术系国际数据库中心自然语言处理小组 | 数据集来源于复旦大学,为短文本分类任务,数据包含20个类别,共9804篇文档 | 文档;新闻 | 文本分类 | 中文 | |
| 5 | [新闻标题短文本分类](https://www.kesci.com/home/dataset/5dd645f |
搜集汇总
数据集介绍

构建方式
CLUEDatasetSearch数据集的构建主要依赖于网络资源的整理与整合,涵盖了多个自然语言处理任务的数据集。该数据集通过公开的网络资源收集了包括命名实体识别、问答系统、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库和阅读理解等多个领域的数据。数据集的构建过程中,特别注重数据的多样性和广泛性,确保覆盖不同领域和应用场景。此外,数据集还支持用户贡献,通过上传数据集信息的方式,用户可以参与到数据集的扩展和完善中。
特点
CLUEDatasetSearch数据集的一个显著特点是其广泛的应用领域和丰富的数据类型。数据集不仅包含了中文和英文的多种自然语言处理任务数据,还特别强调了数据的实用性和多样性。例如,命名实体识别部分包含了从电子病历到社交媒体文本的多种数据源,情感分析部分则涵盖了从微博到专业评论的广泛文本类型。这种多样性使得该数据集能够支持从基础研究到实际应用的广泛需求。
使用方法
使用CLUEDatasetSearch数据集时,用户可以通过其GitHub页面访问详细的数据集信息和下载链接。数据集按照不同的自然语言处理任务进行了分类,用户可以根据具体的研究或应用需求选择相应的数据集。此外,数据集还提供了详细的使用说明和示例,帮助用户快速上手。对于希望贡献数据的用户,可以通过指定的链接上传数据集信息,经过审核后,其贡献将被整合到数据集中,进一步丰富数据集的内容。
背景与挑战
背景概述
CLUEDatasetSearch是一个专注于中英文自然语言处理(NLP)任务的数据集集合,涵盖了命名实体识别(NER)、问答系统(QA)、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库和阅读理解等多个领域。该数据集由CLUE(Chinese Language Understanding Evaluation)团队整理和发布,旨在为研究人员和开发者提供一个全面且易于访问的资源平台,以推动中文NLP技术的发展。CLUEDatasetSearch的创建时间可追溯至2020年,其核心研究问题在于如何通过多样化的数据集支持中文NLP任务的模型训练与评估,进而提升中文语言理解与生成的能力。该数据集的影响力不仅体现在其广泛的应用场景中,还在于其推动了中文NLP领域的标准化与开放共享。
当前挑战
CLUEDatasetSearch面临的挑战主要体现在两个方面。首先,在解决领域问题方面,尽管该数据集涵盖了多个NLP任务,但中文语言的复杂性和多样性使得模型在处理诸如命名实体识别、情感分析等任务时,仍面临语义理解不准确、上下文关联性不足等问题。其次,在数据集构建过程中,挑战主要来自于数据的收集、标注与质量控制。由于数据集来源于网络,数据的版权、隐私和伦理问题需要谨慎处理。此外,中文语料的标注标准不统一,导致不同数据集之间的兼容性和一致性较差,增加了模型训练的难度。如何确保数据的高质量标注、提升数据集的多样性与代表性,仍是CLUEDatasetSearch未来需要解决的关键问题。
常用场景
经典使用场景
CLUEDatasetSearch数据集广泛应用于自然语言处理(NLP)领域,特别是在中文文本处理任务中。该数据集涵盖了命名实体识别(NER)、问答系统(QA)、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库和阅读理解等多个子领域。研究人员和开发者可以利用该数据集进行模型训练、算法验证和性能评估,尤其是在中文语境下的NLP任务中,CLUEDatasetSearch提供了丰富的标注数据和多样化的任务场景。
实际应用
在实际应用中,CLUEDatasetSearch数据集被广泛用于构建智能客服系统、情感分析工具和文本分类引擎。例如,在智能客服系统中,问答系统模块可以利用该数据集中的问答对进行训练,从而提高自动回答用户问题的准确率。情感分析工具则可以通过该数据集中的情感标注数据,帮助企业分析用户评论中的情感倾向,优化产品和服务。此外,文本分类引擎可以利用该数据集中的多类别标注数据,自动对新闻、社交媒体内容等进行分类,提升信息检索和内容推荐的效率。
衍生相关工作
CLUEDatasetSearch数据集衍生了许多经典的NLP研究工作。例如,基于该数据集的命名实体识别任务,研究人员提出了多种改进的深度学习模型,如BERT-CRF和BiLSTM-CRF,显著提升了中文NER的准确率。在问答系统领域,该数据集被用于训练和评估基于Transformer的问答模型,如BERT-QA和RoBERTa-QA,这些模型在开放域问答任务中表现出色。此外,情感分析任务中的细粒度情感标注数据也催生了许多基于注意力机制的情感分析模型,进一步推动了中文情感分析技术的发展。
以上内容由遇见数据集搜集并总结生成



