MR, SST1, SST2, Subj, TREC, CR, MPQA

github2018-10-18 更新2024-05-31 收录

下载链接：

https://github.com/loretoparisi/sentiment_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MR: 电影评论，每条评论包含一句话。分类任务是检测正面/负面评论。SST-1: 斯坦福情感树库，是MR的扩展，提供训练/开发/测试分割和细粒度标签。SST-2: 与SST-1相同，但移除了中性评论并使用二元标签。Subj: 主观性数据集，任务是分类句子为主观或客观。TREC: TREC问题数据集，任务是将问题分类为6种问题类型。CR: 客户对各种产品的评论，任务是预测正面/负面评论。MPQA: 主观意见分析的多视角问答数据集。

MR: Movie Reviews, each review consists of a single sentence. The classification task is to detect positive/negative reviews. SST-1: Stanford Sentiment Treebank, an extension of MR, provides train/dev/test splits and fine-grained labels. SST-2: Same as SST-1, but with neutral reviews removed and binary labels used. Subj: Subjectivity dataset, the task is to classify sentences as subjective or objective. TREC: TREC Question Dataset, the task is to classify questions into 6 question types. CR: Customer reviews of various products, the task is to predict positive/negative reviews. MPQA: Multi-Perspective Question Answering dataset for subjective opinion analysis.

创建时间：

2018-10-18

原始信息汇总

数据集概述

数据集列表

数据集	类别数	平均句子长度	数据集大小	词汇量	在word2vec中出现的单词数	测试集大小
MR	2	20	10662	18765	16448	CV
SST1	5	18	11855	17836	16262	2210
SST2	2	19	9613	16185	14838	1821
Subj	2	23	10000	21323	17913	CV
TREC	6	10	5952	9592	9125	500
CR	2	19	3775	5340	5046	CV
MPQA	2	3	10606	6246	6083	CV

数据集详细信息

MR: 电影评论数据集，每条评论包含一个句子，任务是检测评论的正负面情绪。
SST-1: 斯坦福情感树库，是MR的扩展，提供训练/开发/测试分割和细粒度标签。
SST-2: 与SST-1相同，但移除了中性评论，仅保留二元标签。
Subj: 主观性数据集，任务是分类句子为主观或客观。
TREC: 问题分类数据集，任务是将问题分类为6种类型。
CR: 客户对各种产品的评论数据集，任务是预测评论的正负面情绪。
MPQA: 多视角问答数据集，任务是分类句子的主观性。

搜集汇总

数据集介绍

构建方式

该数据集集合了多个经典的自然语言处理任务数据集，包括MR、SST1、SST2、Subj、TREC、CR和MPQA。这些数据集通过预处理脚本进行格式转换，最终生成为Pandas数据框格式。预处理脚本允许用户通过YAML配置文件自定义数据加载设置，确保数据处理的灵活性和可重复性。每个数据集均经过精心整理，确保数据质量和一致性。

特点

该数据集涵盖了多种自然语言处理任务，如情感分析、主观性分类和问题类型分类等。每个数据集具有独特的类别数量、句子平均长度、词汇量等特征。例如，SST1数据集提供了细粒度的情感标签，而TREC数据集则专注于问题类型的分类。这些数据集不仅规模适中，且与预训练的词向量模型兼容，便于直接应用于深度学习模型的训练与评估。

使用方法

用户可以通过命令行运行预处理脚本，生成Pandas格式的数据文件。生成的.pkl文件可直接通过Python的Pandas库加载，进一步提取句子和标签列表。每个数据集的配置可通过YAML文件进行自定义，确保数据加载的灵活性。此外，数据集的使用文档详细说明了如何配置和加载数据，便于用户快速上手并应用于实际任务中。

背景与挑战

背景概述

MR、SST1、SST2、Subj、TREC、CR、MPQA等数据集是自然语言处理领域中广泛使用的文本分类基准数据集。这些数据集由多位知名研究人员和机构创建，涵盖了从电影评论、情感分析到问题分类等多个任务。例如，MR数据集由Pang和Lee于2005年发布，专注于电影评论的情感分类；SST1和SST2数据集则基于Stanford Sentiment Treebank，由Socher等人于2013年扩展，提供了细粒度的情感标签。这些数据集在推动情感分析、文本分类等领域的研究中发挥了重要作用，成为评估模型性能的标准基准。

当前挑战

这些数据集在构建和应用过程中面临多重挑战。首先，情感分类任务中，文本的情感表达往往具有复杂性和多样性，例如讽刺、隐喻等语言现象增加了分类难度。其次，数据集的标注质量直接影响模型性能，而人工标注的主观性可能导致标签不一致。此外，数据集的规模不平衡问题也较为突出，例如SST1数据集的训练集规模远大于测试集，可能影响模型的泛化能力。在构建过程中，如何确保数据的多样性和代表性，以及如何处理稀疏词汇和未登录词，也是研究者需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，MR、SST1、SST2、Subj、TREC、CR和MPQA数据集被广泛应用于情感分析和文本分类任务。这些数据集通过提供标注好的文本数据，帮助研究者训练和评估机器学习模型，特别是在情感极性判断、主观性分类和问题类型识别等方面。

实际应用

在实际应用中，这些数据集被用于构建智能客服系统、社交媒体情感监控工具以及产品评论分析平台。例如，企业可以利用这些数据集训练模型，自动分析客户反馈中的情感倾向，从而优化产品和服务。此外，新闻机构也可以利用这些数据集对新闻报道进行情感分析，以了解公众对特定事件的态度。

衍生相关工作

基于这些数据集，研究者们开发了许多经典的模型和方法。例如，Socher等人提出的递归神经网络模型在SST数据集上取得了显著的效果，推动了深度学习在情感分析中的应用。此外，Pang和Lee的工作为情感分析领域奠定了理论基础，后续的研究者在此基础上提出了多种改进算法，进一步提升了情感分析的准确性和鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集