MR, SST-1, SST-2, Subj, TREC, CR

github2018-03-31 更新2024-05-31 收录

下载链接：

https://github.com/lenatech/sentiment_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MR: 电影评论，每篇评论包含一个句子，任务是检测正面/负面评论。SST-1: 斯坦福情感树库，是MR的扩展，提供训练/开发/测试分割和精细标签。SST-2: 与SST-1相同，但移除了中性评论并使用二元标签。Subj: 主观性数据集，任务是分类句子为主观或客观。TREC: TREC问题数据集，任务是将问题分类为6种问题类型。CR: 客户对各种产品的评论，任务是预测正面/负面评论。

MR: Movie Reviews, each review consists of a single sentence, and the task is to detect positive/negative reviews. SST-1: Stanford Sentiment Treebank, an extension of MR, providing train/dev/test splits and fine-grained labels. SST-2: Same as SST-1 but with neutral reviews removed and using binary labels. Subj: Subjectivity dataset, the task is to classify sentences as subjective or objective. TREC: TREC question dataset, the task is to classify questions into 6 question types. CR: Customer reviews of various products, the task is to predict positive/negative reviews.

创建时间：

2017-07-15

原始信息汇总

数据集概述

数据集列表及特征

数据集	类别数	平均句子长度	数据集大小	词汇量	出现在word2vec中的单词数	测试集大小
MR	2	20	10662	18765	16448	CV
SST1	5	18	11855	17836	16262	2210
SST2	2	19	9613	16185	14838	1821
Subj	2	23	10000	21323	17913	CV
TREC	6	10	5952	9592	9125	500
CR	2	19	3775	5340	5046	CV
MPQA	2	3	10606	6246	6083	CV

数据集详细描述

MR: 电影评论数据集，每条评论包含一个句子，任务是检测评论的正负性。
SST-1: 斯坦福情感树库，是MR的扩展，提供训练/开发/测试分割和细粒度标签。
SST-2: 与SST-1相同，但移除了中性评论，仅保留二元标签。
Subj: 主观性数据集，任务是分类句子为主观或客观。
TREC: 问题分类数据集，任务是将问题分类为6种类型。
CR: 客户对各种产品的评论数据集，任务是预测评论的正负性。

搜集汇总

数据集介绍

构建方式

该数据集的构建主要基于多个自然语言处理任务相关的文本数据，涵盖了电影评论、情感分析、主观性判定、问题类型分类等多个领域。数据集通过预处理脚本的调整，转化为pandas输出格式，以便于后续的数据处理与分析。构建过程中，针对不同数据集的特点，采用了相应的预处理策略，如分词、标记、以及根据任务需求进行标签的分配。

特点

该数据集的特点在于其多样性及广泛性，包含了多种不同类型的文本数据，能够满足多种自然语言处理任务的需求。各数据集规模适中，既便于管理又足够进行有效的模型训练与测试。此外，数据集中的词汇量丰富，涵盖了word2vec模型中的大多数词汇，有利于模型的准确度提升。各个数据集均提供了测试集，便于评估模型性能。

使用方法

使用该数据集时，首先需要通过预处理脚本将原始数据转化为pandas格式的.pkl文件。之后，可以利用Python中的pandas库读取.pkl文件，获取句子和标签的数据列表。用户可以根据具体任务的需求，对数据进行进一步的处理和分析，如特征提取、模型训练等。详细的预处理和使用方法已在数据集的README文件中给出。

背景与挑战

背景概述

MR, SST-1, SST-2, Subj, TREC, CR这组数据集源于自然语言处理领域，专注于情感分析和文本分类任务。创建于21世纪初，这些数据集主要由Pang和Lee等研究人员提出并构建，旨在为相关研究提供基准。MR数据集收集了电影评论，用于二分类任务，识别正面或负面评论；SST-1和SST-2数据集进一步扩展了MR，提供了更细致的情感标签和训练/验证/测试数据划分；Subj数据集关注句子的主观性分类；TREC数据集针对问题类型分类；CR数据集涉及产品评论的情感分析。这些数据集对自然语言处理领域产生了深远的影响，推动了情感分析技术的发展。

当前挑战

这些数据集面临的挑战主要包括：1)领域问题方面，如何更精确地区分情感标签，尤其是在细粒度情感分类上；2)构建过程中，数据集的规模和质量平衡、数据标注的一致性和准确性，以及跨领域和跨语言的适应性。这些挑战促使研究人员不断提出新的算法和模型，以提升情感分析的准确性和实用性。

常用场景

经典使用场景

在自然语言处理领域，MR, SST-1, SST-2, Subj, TREC, CR等数据集被广泛用于情感分析、文本分类等任务。MR数据集以其简洁的二元情感标签，成为研究情感倾向性的经典使用场景。SST-1与SST-2则因其细粒度的情感标签，被用于深入探讨情感表达的细微差异。Subj数据集在主客观性分类任务中具有典型性，而TREC与CR数据集则分别代表了问题类型分类和产品评论的情感分析，为相关领域的研究提供了标准化数据。

解决学术问题

这些数据集有效解决了学术研究中关于文本情感倾向性、主观性与客观性分类、问题类型识别等关键问题。它们为机器学习模型提供了丰富的训练和测试资源，从而提升了模型的准确性和泛化能力。特别是在情感分析领域，这些数据集帮助研究者探索了文本情感的深层次特征，推动了情感计算理论的发展。

衍生相关工作

这些数据集的广泛应用催生了大量的相关研究工作。例如，基于SST数据集的研究进一步拓展了情感分析的边界，如情感推理、情感因果关系建模等。在主客观性分类方面，Subj数据集促进了文本理解技术的发展。这些研究工作不仅丰富了自然语言处理的理论体系，也为实际应用提供了技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集