MR, SST-1, SST-2, Subj, TREC, CR

github2023-11-30 更新2024-05-31 收录

下载链接：

https://github.com/AcademiaSinicaNLPLab/sentiment_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MR：电影评论，每条评论包含一个句子，任务是检测正面/负面评论。SST-1：斯坦福情感树库，是MR的扩展，提供训练/开发/测试分割和细粒度标签。SST-2：与SST-1相同，但移除了中性评论并使用二元标签。Subj：主观性数据集，任务是分类句子为主观或客观。TREC：TREC问题数据集，任务是将问题分类为6种问题类型。CR：客户对各种产品的评论，任务是预测正面/负面评论。

MR: Movie reviews, each containing a single sentence, with the task of detecting positive/negative reviews. SST-1: Stanford Sentiment Treebank, an extension of MR, providing training/development/test splits and fine-grained labels. SST-2: Similar to SST-1, but with neutral reviews removed and using binary labels. Subj: Subjectivity dataset, with the task of classifying sentences as subjective or objective. TREC: TREC question dataset, with the task of classifying questions into 6 question types. CR: Customer reviews of various products, with the task of predicting positive/negative reviews.

创建时间：

2016-03-18

原始信息汇总

数据集概述

数据集列表及特性

数据集	类别数	平均句子长度	数据集大小	词汇量	在word2vec中出现的单词数	测试集大小
MR	2	20	10662	18765	16448	CV
SST1	5	18	11855	17836	16262	2210
SST2	2	19	9613	16185	14838	1821
Subj	2	23	10000	21323	17913	CV
TREC	6	10	5952	9592	9125	500
CR	2	19	3775	5340	5046	CV
MPQA	2	3	10606	6246	6083	CV

数据集详细描述

MR: 电影评论数据集，每条评论包含一个句子，任务是检测评论的正负面情绪。
SST-1: 斯坦福情感树库，是MR的扩展，提供细粒度标签（非常正面，正面，中性，负面，非常负面），数据实际以短语级别提供，训练模型同时处理短语和句子，测试时仅评估句子。
SST-2: 与SST-1相同，但移除了中性评论，仅保留二元标签。
Subj: 主观性数据集，任务是分类句子为主观或客观。
TREC: TREC问题数据集，任务是将问题分类为6种类型。
CR: 客户对各种产品的评论，任务是预测评论的正负面情绪。
MPQA: 多视角问题回答数据集，任务是分类句子。

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个经典文本分类任务的数据集构建而成，涵盖了电影评论、情感分析、主观性分类、问题分类以及产品评论等多个领域。每个子数据集均经过预处理，转换为统一的pandas格式，便于后续分析。预处理脚本支持通过YAML配置文件灵活加载不同数据集，确保数据格式的一致性。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从二分类到多分类的多种任务类型。每个子数据集均提供了详细的统计信息，包括类别数量、平均句子长度、数据集大小、词汇量等。特别值得注意的是，SST-1和SST-2数据集提供了细粒度的情感标签，且SST-1的训练集规模远超表中所列，因其包含短语级别的标注。

使用方法

使用该数据集时，可通过提供的预处理脚本加载数据，并生成pandas格式的文件。用户可通过Python直接读取生成的pkl文件，获取句子和标签列表。预处理脚本支持通过YAML配置文件自定义加载设置，确保数据加载的灵活性。此外，用户可根据具体任务需求，选择不同的子数据集进行实验和分析。

背景与挑战

背景概述

MR、SST-1、SST-2、Subj、TREC、CR等数据集是自然语言处理领域中的重要资源，广泛应用于情感分析、文本分类等任务。MR数据集由Pang和Lee于2005年创建，专注于电影评论的情感分类，标志着情感分析研究的早期突破。SST-1和SST-2数据集由Stanford团队在2013年扩展，提供了更细粒度的情感标签，推动了深度学习在情感分析中的应用。Subj数据集由Pang和Lee于2004年提出，旨在区分句子的主观性与客观性。TREC数据集由Li和Roth于2002年发布，专注于问题分类任务。CR数据集由Hu和Liu于2004年构建，用于产品评论的情感分析。这些数据集为文本分类和情感分析领域的研究提供了坚实的基础。

当前挑战

这些数据集在应用和构建过程中面临多重挑战。首先，情感分析任务中的标签主观性较强，尤其是SST-1的细粒度情感分类，标注一致性难以保证。其次，数据集的规模有限，如CR数据集仅包含3775条样本，可能导致模型泛化能力不足。此外，SST-1和SST-2的训练数据包含短语和句子，但测试仅基于句子，这种不一致性增加了模型训练的复杂性。在构建过程中，数据预处理和标注的复杂性也是一个显著挑战，例如TREC数据集的问题分类需要精确的领域知识支持。这些挑战要求研究者在模型设计和数据增强方面进行创新，以提升模型的性能与鲁棒性。

常用场景

经典使用场景

在自然语言处理领域，MR、SST-1、SST-2、Subj、TREC和CR数据集广泛应用于情感分析和文本分类任务。这些数据集通过提供标注好的文本数据，帮助研究者训练和评估机器学习模型，尤其是在情感极性检测、主观性分类和问题类型识别等任务中表现出色。例如，MR数据集常用于电影评论的情感分类，而TREC数据集则用于问题分类任务。

衍生相关工作

这些数据集衍生了许多经典的自然语言处理工作。例如，基于SST-1和SST-2数据集，研究者提出了多种深度学习模型，如递归神经网络和注意力机制，显著提升了情感分析的性能。TREC数据集则催生了多种问题分类算法，推动了智能问答系统的发展。此外，MR和CR数据集也被广泛用于情感分类模型的基准测试，推动了该领域的持续进步。

数据集最近研究