kylam/sst

Name: kylam/sst
Creator: kylam
Published: 2026-05-01 14:45:32
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/kylam/sst

下载链接

链接失效反馈

官方服务：

资源简介：

斯坦福情感树库是第一个带有完全标记解析树的数据集，允许对语言中情感的组成效应进行完整分析。

The Stanford Sentiment Treebank is the first corpus with fully labeled parse trees that allows for a complete analysis of the compositional effects of sentiment in language.

提供机构：

kylam

搜集汇总

数据集介绍

构建方式

斯坦福情感树库（Stanford Sentiment Treebank, SST）是基于Rotten Tomatoes电影评论构建的情感分析数据集，其核心创新在于提供了完整的句法解析树标注。数据集由众包方式标注，每条完整句子及其中每个短语均被赋予0.0至1.0的连续情感分数，反映了情感极性强度。构建过程中，原始评论被解析为父指针树或宾州树库格式，从而实现了对语言组合语义的精细化研究。该数据集包含三个配置：default提供句子、标签与解析树；dictionary收录所有短语及其标签；ptb则直接提供宾州树库风格的标注树。训练、验证与测试集分别包含8544、1101和2210个句子，短语总数达近24万。

特点

SST的独特之处在于其细粒度的情感标注粒度，覆盖了从单词到短语再到完整句子的所有句法层级。每个语言单元的情感分数是连续的，支持回归与分类任务的灵活转换。数据集提供了三种结构化格式：默认配置中的父指针树便于提取子短语，dictionary配置则直接聚合了所有短语标签，而ptb配置保留了传统树库的完整句法结构。这种多层次、多格式的设计使得SST成为研究情感组合性与句法交互作用的标准基准，广泛应用于情感分析、文本分类和语义组合性评估等任务。

使用方法

使用时，研究人员可根据任务需求选择配置。对于情感分类或回归任务，可直接加载default配置中的句子与标签，或通过解析树提取短语进行细粒度分析。dictionary配置适合快速获取短语级情感字典，而ptb配置则适用于需要完整句法结构的实验。数据通过Hugging Face Datasets库加载，支持批量处理与划分。以二分类为例，可将连续标签四舍五入为0/1值；若需多分类，可将0.0-1.0区间等分为五个情感等级。另外，源自短语的标签可组合成句子级特征，用于训练递归或树结构的深度学习模型，如Tree-LSTM等。

背景与挑战

背景概述

斯坦福情感树库（Stanford Sentiment Treebank, SST）由斯坦福大学Richard Socher等研究人员于2013年提出，是自然语言处理领域情感分析研究的里程碑式资源。该数据集源自Rotten Tomatoes电影评论，其核心创新在于提供了首个完全标注句法解析树的语料库，使得研究者能够深入探索语言情感的组合性效应——即词或短语的情感如何通过句法结构组合形成整体句子的情感。SST的发布极大地推动了递归神经网络等深度模型在细粒度情感分析中的发展，成为文本分类与情感评分任务的基准数据集，在学术界与工业界产生了深远影响。

当前挑战

SST数据集首先面临的核心领域挑战是情感分析中的组合性语义建模，即如何捕捉短语乃至词级别的情感极性在句法树上的动态传递与映射，这要求模型具备对语言结构的高度理解能力。在构建过程中，挑战集中于标注质量与粒度平衡：一方面，需收集大规模、多样化的电影评论以确保代表性；另一方面，需通过众包方式为每个句子及其子短语分配0到1之间的连续情感分数，这增加了标注一致性与噪声控制的难度。此外，数据集的解析树格式复杂，如何高效利用其层次化结构进行模型训练与评估，也是对算法设计的一大考验。

常用场景

经典使用场景

斯坦福情感树库（SST）作为自然语言处理领域里程碑式的资源，其核心价值在于为情感分析提供了首个带有完整句法标注树的语料库。经典使用场景聚焦于细粒度情感识别任务，研究者可借助其中标注的短语级情感分数，从0.0到1.0的连续尺度上捕捉词汇组合在句子结构中的情感传递效应。这一设计使得模型能够超越简单的整句分类，深入解析否定、转折等复杂语法结构对情感极性的调节作用，从而在评论分析、舆情监控等需要精准理解语义倾向的场景中发挥关键作用。

衍生相关工作

SST的发布催生了众多经典后续研究，最具代表性的是其奠基论文《Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank》中提出的递归神经网络（RNN）变体，该模型首次证明了深层语义组合在情感分类中的有效性。此后，Tree-LSTM等基于树结构的记忆增强模型将SST作为核心评估任务，验证了句法先验对长程情感依赖建模的增益。近年来，预训练语言模型如BERT在SST上取得的突破性成绩，则进一步彰显了该数据集作为情感分析领域标准化基准的持久影响力。

数据集最近研究