CLUEDatasetSearch
收藏github2021-11-12 更新2024-05-31 收录
下载链接:
https://github.com/ZeyuChen/CLUEDatasetSearch
下载链接
链接失效反馈官方服务:
资源简介:
中英文NLP数据集,涵盖了NER、QA、情感分析、文本分类等多个领域的数据集,用于研究和开发NLP相关应用。
The Chinese-English NLP dataset encompasses a variety of datasets across multiple domains such as Named Entity Recognition (NER), Question Answering (QA), sentiment analysis, and text classification, aimed at facilitating research and development in NLP-related applications.
创建时间:
2020-11-05
原始信息汇总
数据集概述
命名实体识别(NER)
| ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|---|
| 1 | CCKS2017中文电子病例命名实体识别 | 2017年5月 | 北京极目云健康科技有限公司 | 数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 | 电子病历 | 命名实体识别 | 中文 |
| 2 | CCKS2018中文电子病例命名实体识别 | 2018年 | 医渡云(北京)技术有限公司 | CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 | 电子病历 | 命名实体识别 | 中文 |
| 3 | 微软亚研院MSRA命名实体识别识别数据集 | MSRA | 数据来源于MSRA,标注形式为BIO,共有46365条语料 | Msra | 命名实体识别 | 中文 | |
| 4 | 1998人民日报语料集实体识别标注集 | 1998年1月 | 人民日报 | 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 | 98人民日报 | 命名实体识别 | 中文 |
| 5 | Boson | 玻森数据 | 数据来源为Boson,标注形式为BMEO,共有2000条语料 | Boson | 命名实体识别 | 中文 | |
| 6 | CLUE Fine-Grain NER | 2020年 | CLUE | CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 | 细粒度;CULE | 命名实体识别 | 中文 |
| 7 | CoNLL-2003 | 2003 | CNTS - Language Technology Group | 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 | CoNLL-2003 | 命名实体识别 | 英文 |
| 8 | 微博实体识别 | 2015年 | https://github.com/hltcoe/golden-horse | 数据来源于EMNLP-2015,标注形式为BMEO,共有2000条语料 | EMNLP-2015 | 命名实体识别 | 中文 |
| 9 | SIGHAN Bakeoff 2005 | 2005年 | MSR/PKU | 数据来源为bakeoff-2005,标注形式为BMEO,共有2000条语料 | bakeoff-2005 | 命名实体识别 | 中文 |
问答(QA)
| ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
|---|---|---|---|---|---|---|---|---|
| 1 | NewsQA | 2019/9/13 | 微软研究院 | Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 | 英文 | QA | 论文 | |
| 2 | SQuAD | 斯坦福 | 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 | 英文 | QA | 论文 | ||
| 3 | SimpleQuestions | 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 | 英文 | QA | 论文 | |||
| 4 | WikiQA | 2016/7/14 | 微软研究院 | 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 | 英文 | QA | 论文 | |
| 5 | cMedQA | 2019/2/25 | Zhang Sheng | 医学在线论坛的数据,包含5.4万个问题,及对应的约10万个回答。 | 中文 | QA | 论文 | |
| 6 | cMedQA2 | 2019/1/9 | Zhang Sheng | cMedQA的扩展版,包含约10万个医学相关问题,及对应的约20万个回答。 | 中文 | QA | 论文 | |
| 7 | webMedQA | 2019/3/10 | He Junqing | 一个医学在线问答数据集,包含6万个问题和31万个回答,而且包含问题的类别。 | 中文 | QA | 论文 | |
| 8 | XQA | 2019/7/29 | 清华大学 | 该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。 | 多语言 | QA | 论文 | |
| 9 | AmazonQA | 2019/9/29 | 亚马逊 | 卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户 | 英文 | QA | 论文 |
情感分析
| ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 条微博, 45 431句子 | NLPCC2013, Emotion | 情感分析 | 论文 | |
| 2 | NLPCC2014 Task1 | 2014 | CCF | 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000条微博 | NLPCC2014, Emotion | 情感分析 | ||
| 3 | NLPCC2014 Task2 | 2014 | CCF | 微博语料,标注了正面和负面 | NLPCC2014, Sentiment | 情感分析 | ||
| 4 | Weibo Emotion Corpus | 2016 | The Hong Kong Polytechnic University | 微博语料,标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四万多条微博 | weibo emotion corpus | 情感分析 | Emotion Corpus Construction Based on Selection from Noisy Natural Labels | |
| 5 | [RenCECPs](Fuji Ren can be contacted (ren@is.tokushima-u.ac.jp) for a license agreement.) | 2009 | Fuji Ren | 标注的博客语料库,在文档级、段落级和句子级标注了emotion和sentiment。包含了1500个博客,11000段落和35000句子。 | RenCECPs, emotion, sentiment | 情感分析 | Construction of a blog emotion corpus for Chinese emotional expression analysis | |
| 6 | weibo_senti_100k | 不详 | 不详 | 带情感标注 新浪微博,正负向评论约各 5 万条 | weibo senti, sentiment | 情感分析 | ||
| 7 | BDCI2018-汽车行业用户观点主题及情感识别 | 2018 | CCF | 汽车论坛中对汽车的评论,标注了汽车的诗歌主题:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签,情感分为3类,分别用数字0、1、-1表示中立、正向、负向。 | 属性情感分析 主题情感分析 | 情感分析 | ||
| 8 | AI Challenger 细粒度用户评论情感分析 | 2o18 | 美团 | 餐饮评论,6个一级属性,20个二级属性,每个属性标注正面、负面、中性、未提及。 | 属性情感分析 | 情感分析 | ||
| 9 | BDCI2019金融信息负面及主体判定 | 2019 | 中原银行 | 金融领域新闻,每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。 | 实体情感分析 | 情感分析 | ||
| 10 | 之江杯电商评论观点挖掘大赛 | 2019 | 之江实验室 | 本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度。此外,多个属性特征可以归入某一个属性种类,例如外观、盒子等属性特征均可归入包装这个属性种类。参赛队伍最终需提交对测试数据的抽取预测信息,包括属性特征词、观点词、观点极性和属性种类4个字段。 | 属性情感分析 | 情感分析 | ||
| 11 | 2019搜狐校园算法大赛 | 2019 | 搜狐 | 给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。实体:人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的实体词。核心实体:文章主要描述、或担任文章主要角色的实体词。 | 实体情感分析 | 情感分析 |
文本分类
| ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 备注 |
|---|---|---|---|---|---|---|---|
| 1 | [2018“达观杯”文本智能处理挑战赛](https://www.pkbigdata.com/common/cmpt/ “达观杯”文本智能处理挑战赛_赛体与数据.html) | 2018年7月 |
搜集汇总
数据集介绍

构建方式
CLUEDatasetSearch数据集的构建依托于广泛的网络资源,涵盖了自然语言处理(NLP)的多个子领域,如命名实体识别、问答系统、情感分析等。数据集通过整合和标准化来自不同来源的数据,确保了数据的多样性和广泛性。此外,该平台鼓励用户贡献数据集,通过审核后,贡献者的数据集将被纳入平台,进一步丰富了数据集的覆盖范围和深度。
特点
CLUEDatasetSearch数据集的特点在于其全面性和多样性。它不仅包含了从电子病历到社交媒体文本的多种数据类型,还涵盖了从基础研究到实际应用的广泛主题。数据集中的每个条目都经过详细的标注和分类,确保了数据的高质量和可用性。此外,数据集支持中英文双语,为跨语言研究提供了便利。
使用方法
CLUEDatasetSearch数据集的使用方法灵活多样,适用于不同的研究需求和应用场景。研究人员可以通过平台提供的搜索功能,快速定位到所需的数据集。数据集可以直接下载使用,支持多种格式,便于集成到现有的研究框架中。此外,平台还提供了详细的使用指南和示例代码,帮助用户快速上手并有效地利用数据集进行研究和开发。
背景与挑战
背景概述
CLUEDatasetSearch是一个专注于中文自然语言处理(NLP)的数据集集合,涵盖了命名实体识别(NER)、问答系统(QA)、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库和阅读理解等多个领域。该数据集由CLUE团队整理并发布,旨在为研究人员和开发者提供一个全面且易于访问的中文NLP数据集资源。CLUE团队自2020年起开始构建这一数据集,其核心研究问题在于如何通过大规模、多样化的数据集推动中文NLP技术的发展,尤其是在细粒度任务如命名实体识别和情感分析中的应用。该数据集的影响力不仅体现在其广泛的应用场景中,还在于其推动了中文NLP领域的标准化和开放共享。
当前挑战
CLUEDatasetSearch面临的挑战主要体现在两个方面。首先,在领域问题的解决上,尽管数据集涵盖了多个NLP任务,但中文语言的复杂性和多样性使得某些任务如细粒度命名实体识别和情感分析仍然具有较高的难度。例如,中文的实体边界模糊、多义词现象普遍,这给NER任务带来了额外的挑战。其次,在数据集的构建过程中,数据的收集、清洗和标注也面临诸多困难。由于数据集来源于网络,数据的质量和一致性难以保证,且部分数据涉及隐私和版权问题,需进行脱敏处理。此外,数据标注的准确性和一致性依赖于人工标注,而中文的语义复杂性使得标注过程容易产生歧义,进一步增加了数据集构建的难度。
常用场景
经典使用场景
CLUEDatasetSearch数据集广泛应用于自然语言处理(NLP)领域,特别是在中文文本处理任务中。该数据集涵盖了命名实体识别(NER)、问答系统(QA)、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库构建以及阅读理解等多个子领域。研究者可以通过该数据集进行模型训练、算法验证和性能评估,尤其是在中文语境下的NLP任务中,CLUEDatasetSearch提供了丰富的标注数据和多样化的任务场景。
解决学术问题
CLUEDatasetSearch解决了中文NLP领域中的多个关键学术问题。首先,它为命名实体识别任务提供了高质量的标注数据,帮助研究者提升模型在中文文本中的实体识别能力。其次,该数据集支持问答系统的开发,特别是在开放域问答和阅读理解任务中,提供了多样化的问答对和上下文信息。此外,情感分析和文本分类任务的数据集帮助研究者深入理解中文文本的情感倾向和主题分类,推动了中文NLP技术的发展。
衍生相关工作
CLUEDatasetSearch数据集衍生了许多经典的NLP研究工作。例如,基于该数据集的命名实体识别任务,研究者提出了多种改进的深度学习模型,如BERT-CRF、BiLSTM-CRF等,显著提升了中文NER的性能。在问答系统领域,基于CLUEDatasetSearch的阅读理解数据集,研究者开发了多种端到端的问答模型,如基于Transformer的模型和基于注意力机制的模型。此外,情感分析和文本分类任务的研究也推动了中文文本情感计算和主题分类技术的发展,相关成果被广泛应用于学术研究和工业实践中。
以上内容由遇见数据集搜集并总结生成



