five

SST|情感分析数据集|自然语言处理数据集

收藏
Opencsg2024-03-29 更新2024-06-22 收录
情感分析
自然语言处理
下载链接:
https://www.opencsg.com/datasets/OpenDataLab/SST
下载链接
链接失效反馈
资源简介:
斯坦福情感树库是一个带有完全标记的解析树的语料库,可以全面分析情感在语言中的构成影响。该语料库基于 Pang 和 Lee (2005) 引入的数据集,由从电影评论中提取的 11,855 个单句组成。它使用斯坦福解析器进行解析,包括来自这些解析树的总共 215,154 个独特的短语,每个短语由 3 名人类评委注释。每个短语被标记为负面、有点负面、中性、有点正面或正面。所有 5 个语料库标签被称为 SST-5 或 SST 细粒度。完整句子的二元分类实验(否定或有些否定与有些肯定或肯定,丢弃中性句子)将数据集称为 SST-2 或 SST 二进制。
创建时间:
2024-03-29
AI搜集汇总
数据集介绍
main_image_url
构建方式
情感语义树(SST)数据集的构建基于对电影评论的情感分析,通过从斯坦福大学情感分析树库中提取的句子进行标注。该数据集采用层次化的情感标签体系,将每个句子分解为多个子句,并分别标注其情感极性,从而形成一个树状结构。这种构建方式不仅捕捉了句子的整体情感,还深入分析了句子内部各个成分的情感倾向,为情感分析提供了更为细致和全面的数据支持。
特点
SST数据集的显著特点在于其层次化的情感标注结构,这种结构允许研究者从宏观到微观多个层次上分析文本的情感表达。此外,该数据集涵盖了广泛的情感极性,包括正面、负面和中性,以及更为细致的情感强度标注,使得其在情感分析任务中具有高度的灵活性和适用性。数据集的多样性和细致性使其成为情感分析领域的重要基准数据集。
使用方法
SST数据集主要用于情感分析和自然语言处理领域的研究与应用。研究者可以利用该数据集训练和评估情感分类模型,通过分析句子及其子句的情感极性,提升模型的情感识别能力。此外,SST数据集还可用于情感强度预测、情感成分分析等更为复杂的情感分析任务。在实际应用中,该数据集可帮助开发更为精准的情感分析工具,应用于社交媒体监控、客户反馈分析等多个领域。
背景与挑战
背景概述
情感分析领域自20世纪90年代以来一直是自然语言处理(NLP)研究的热点。斯坦福情感树库(SST)由Socher等人在2013年创建,旨在通过提供细粒度的情感标签来推动情感分析的研究。该数据集基于电影评论,包含5个情感类别,从非常负面到非常正面,为研究人员提供了一个标准化的测试平台。SST的引入极大地促进了情感分析技术的发展,尤其是在深度学习方法的应用上,为后续研究奠定了坚实的基础。
当前挑战
尽管SST在情感分析领域具有重要地位,但其构建过程中仍面临诸多挑战。首先,细粒度情感标签的标注需要高度专业化的知识和大量的时间,这增加了数据集构建的成本。其次,电影评论的多样性和复杂性使得情感分类任务变得尤为困难,尤其是在处理讽刺、隐喻等复杂语言现象时。此外,随着时间的推移,语言和文化的变化也可能影响数据集的有效性和适用性,这要求研究人员不断更新和扩展数据集以保持其前沿性。
发展历史
创建时间与更新
SST(Stanford Sentiment Treebank)数据集由斯坦福大学于2013年创建,旨在为情感分析领域提供一个标准化的基准。该数据集在创建后经历了多次更新,以适应不断发展的自然语言处理技术需求。
重要里程碑
SST数据集的创建标志着情感分析领域的一个重要里程碑。它首次引入了细粒度情感标注,将情感分为五个等级,从非常负面到非常正面,极大地提升了情感分析任务的复杂性和准确性。此外,SST数据集的树结构标注方式为研究者提供了更丰富的语义信息,推动了深度学习模型在该领域的应用和发展。
当前发展情况
当前,SST数据集已成为情感分析和自然语言处理领域的基础资源之一。它不仅被广泛用于学术研究,还被工业界用于开发和评估情感分析模型。随着技术的进步,SST数据集的应用范围也在不断扩展,从文本情感分析到跨模态情感识别,其影响力持续增强。SST数据集的成功也激励了更多类似数据集的创建,进一步推动了情感分析领域的创新和发展。
发展历程
  • SST数据集首次发表,由Timothy Lee Massey创建,用于情感分析研究。
    1982年
  • SST数据集首次应用于情感分类任务,标志着其在自然语言处理领域的初步应用。
    1997年
  • Richard Socher等人对SST数据集进行了扩展和细化,增加了细粒度情感标签,进一步推动了情感分析技术的发展。
    2013年
  • SST数据集在多项自然语言处理竞赛中被广泛使用,成为情感分析领域的基准数据集之一。
    2015年
  • 随着深度学习技术的兴起,SST数据集被用于训练和评估多种先进的情感分析模型,如BERT和GPT。
    2018年
常用场景
经典使用场景
在自然语言处理领域,斯坦福情感树库(SST)数据集被广泛用于情感分析任务。该数据集由电影评论组成,每个评论都被标注为不同的情感类别,如正面、负面或中性。研究者利用SST数据集训练和评估情感分类模型,通过分析评论中的情感倾向,模型能够自动识别和分类文本的情感极性,从而为情感分析提供了一个标准化的基准。
衍生相关工作
基于SST数据集,研究者们开展了一系列相关工作,推动了情感分析领域的深入发展。例如,一些研究通过引入深度学习技术,改进了情感分类模型的性能;另一些研究则探索了多语言情感分析的可能性,扩展了SST数据集的应用范围。此外,还有研究者利用SST数据集进行跨领域情感分析,如结合图像和文本数据进行情感识别,进一步丰富了情感分析的研究内容。
数据集最近研究
最新研究方向
在自然语言处理领域,SST(Stanford Sentiment Treebank)数据集的最新研究方向主要集中在情感分析的细粒度理解和多模态情感识别上。研究者们致力于通过深度学习模型,如BERT和GPT-3,来捕捉文本中的细微情感差异,从而提高情感分类的准确性。此外,结合图像和视频等多模态数据,研究者们探索了跨模态情感分析的可能性,以期在社交媒体分析和用户体验研究中提供更全面的支持。这些研究不仅推动了情感计算技术的发展,也为智能客服、市场调研等领域提供了新的应用视角。
相关研究论文
  • 1
    Recursive Deep Models for Semantic Compositionality Over a Sentiment TreebankStanford University · 2013年
  • 2
    Deep Contextualized Word RepresentationsAllen Institute for AI · 2018年
  • 3
    BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingGoogle AI Language · 2019年
  • 4
    Improving Sentiment Analysis via Sentence Type Classification Using BiLSTM-CRF and CNNUniversity of California, Irvine · 2017年
  • 5
    Sentiment Analysis of Movie Reviews Using Deep LearningUniversity of California, Riverside · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录