MR, SST-1, SST-2, Subj, TREC, CR

github2019-05-21 更新2024-05-31 收录

下载链接：

https://github.com/kazemmit/sentiment_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MR: 电影评论，每条评论包含一个句子，任务是检测正面/负面评论。SST-1: 斯坦福情感树库，是MR的扩展，提供训练/开发/测试分割和细粒度标签。SST-2: 与SST-1相同，但移除了中性评论并使用二元标签。Subj: 主观性数据集，任务是分类句子为主观或客观。TREC: TREC问题数据集，任务是将问题分类为6种类型。CR: 客户对各种产品的评论，任务是预测正面/负面评论。

MR: Movie Reviews, each review consists of a single sentence, and the task is to detect positive/negative reviews. SST-1: Stanford Sentiment Treebank, an extension of MR, provides train/dev/test splits and fine-grained labels. SST-2: Same as SST-1, but with neutral reviews removed and using binary labels. Subj: Subjectivity dataset, the task is to classify sentences as subjective or objective. TREC: TREC question dataset, the task is to classify questions into 6 types. CR: Customer reviews of various products, the task is to predict positive/negative reviews.

创建时间：

2018-11-28

原始信息汇总

数据集概述

数据集列表

数据集	类别数	平均句子长度	数据集大小	词汇量	存在于word2vec的单词数	测试集大小
MR	2	20	10662	18765	16448	CV
SST1	5	18	11855	17836	16262	2210
SST2	2	19	9613	16185	14838	1821
Subj	2	23	10000	21323	17913	CV
TREC	6	10	5952	9592	9125	500
CR	2	19	3775	5340	5046	CV
MPQA	2	3	10606	6246	6083	CV

数据集详细信息

MR: 电影评论数据集，每条评论包含一个句子，任务是检测评论的正负性。
SST-1: 斯坦福情感树库，是MR的扩展，提供训练/开发/测试分割和细粒度标签。
SST-2: 与SST-1相同，但移除了中性评论，只保留二元标签。
Subj: 主观性数据集，任务是分类句子为主观或客观。
TREC: TREC问题数据集，任务是将问题分类为6种类型。
CR: 客户对各种产品的评论，任务是预测评论的正负性。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于多个自然语言处理任务，涵盖了电影评论、情感分析、主观性判定、问题分类等多个领域。通过预处理脚本的调整，数据被转换为pandas输出格式，便于后续的数据分析和模型训练。构建过程中，数据集被细分为不同的类别和标签，每个数据集均包含训练和测试所需的文本及其对应的标签信息。

特点

该数据集集合了多种自然语言处理任务相关的数据，包括但不限于MR（电影评论情感分析）、SST-1和SST-2（斯坦福情感树库）、Subj（主观性判定）、TREC（问题分类）、CR（产品评论情感分析）。各数据集具有不同的类别数量、平均句子长度、数据集大小、词汇量等特征，为研究者提供了丰富的文本资源和多样化的研究场景。

使用方法

使用该数据集时，首先需要通过预处理脚本将数据转换为pandas的pickle格式，之后可以通过Python的pandas库加载pickle文件，获取文本和标签信息。用户可以根据具体的研究需求，对这些数据进行进一步的探索和模型训练。预处理脚本提供了灵活的参数配置，用户可以根据corpus.yaml中的注释来配置加载设置。

背景与挑战

背景概述

所述数据集集合涉及自然语言处理领域中情感分析的关键研究，其创建旨在为机器学习模型提供基准测试，以评估其在理解和分类文本情感方面的性能。该数据集的创建时间横跨2002年至2013年，涉及的研究人员包括Pang和Lee、Socher等人，以及Li和Roth等。核心研究问题聚焦于文本的情感极性分类、主观性判定以及问题类型分类等。这些数据集在自然语言处理领域具有重大影响力，被广泛用于评估和比较各种情感分析模型的效果。

当前挑战

数据集在构建和应用过程中面临多项挑战，其中包括：1)领域问题挑战，例如MR和CR数据集在解决电影和产品评论的情感分类时，需克服文本表达的多样性和复杂性；2)构建过程中的挑战，如数据清洗、标注一致性以及数据规模的平衡等。特别是在数据标注方面，确保标注的质量和一致性对于训练可靠的情感分析模型至关重要。

常用场景

经典使用场景

在自然语言处理领域，MR, SST-1, SST-2, Subj, TREC, CR等数据集被广泛应用于情感分析任务。MR数据集，针对电影评论进行正负情感分类，是情感分析研究的经典场景。SST-1和SST-2则提供了更细致的情感标签，有助于深入探索情感的多维度表达。Subj数据集用于判断句子的主观性，而TREC和CR数据集则分别针对问题和产品评论进行分类，它们共同构成了文本情感分析的标准测试床。

衍生相关工作

基于这些数据集，研究者衍生出了一系列经典工作，包括情感分析模型的设计、情绪识别算法的研究以及跨领域的情感分析应用探索，极大地丰富了情感分析领域的研究内容和方法论。

数据集最近研究