five

MR, SST1, SST2, Subj, TREC, CR, MPQA

收藏
github2018-10-18 更新2024-05-31 收录
下载链接:
https://github.com/loretoparisi/sentiment_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MR: 电影评论,每条评论包含一句话。分类任务是检测正面/负面评论。SST-1: 斯坦福情感树库,是MR的扩展,提供训练/开发/测试分割和细粒度标签。SST-2: 与SST-1相同,但移除了中性评论并使用二元标签。Subj: 主观性数据集,任务是分类句子为主观或客观。TREC: TREC问题数据集,任务是将问题分类为6种问题类型。CR: 客户对各种产品的评论,任务是预测正面/负面评论。MPQA: 主观意见分析的多视角问答数据集。

MR: Movie Reviews, each review consists of a single sentence. The classification task is to detect positive/negative reviews. SST-1: Stanford Sentiment Treebank, an extension of MR, provides train/dev/test splits and fine-grained labels. SST-2: Same as SST-1, but with neutral reviews removed and binary labels used. Subj: Subjectivity dataset, the task is to classify sentences as subjective or objective. TREC: TREC Question Dataset, the task is to classify questions into 6 question types. CR: Customer reviews of various products, the task is to predict positive/negative reviews. MPQA: Multi-Perspective Question Answering dataset for subjective opinion analysis.
创建时间:
2018-10-18
原始信息汇总

数据集概述

数据集列表

数据集 类别数 平均句子长度 数据集大小 词汇量 在word2vec中出现的单词数 测试集大小
MR 2 20 10662 18765 16448 CV
SST1 5 18 11855 17836 16262 2210
SST2 2 19 9613 16185 14838 1821
Subj 2 23 10000 21323 17913 CV
TREC 6 10 5952 9592 9125 500
CR 2 19 3775 5340 5046 CV
MPQA 2 3 10606 6246 6083 CV

数据集详细信息

  1. MR: 电影评论数据集,每条评论包含一个句子,任务是检测评论的正负面情绪。
  2. SST-1: 斯坦福情感树库,是MR的扩展,提供训练/开发/测试分割和细粒度标签。
  3. SST-2: 与SST-1相同,但移除了中性评论,仅保留二元标签。
  4. Subj: 主观性数据集,任务是分类句子为主观或客观。
  5. TREC: 问题分类数据集,任务是将问题分类为6种类型。
  6. CR: 客户对各种产品的评论数据集,任务是预测评论的正负面情绪。
  7. MPQA: 多视角问答数据集,任务是分类句子的主观性。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集集合了多个经典的自然语言处理任务数据集,包括MR、SST1、SST2、Subj、TREC、CR和MPQA。这些数据集通过预处理脚本进行格式转换,最终生成为Pandas数据框格式。预处理脚本允许用户通过YAML配置文件自定义数据加载设置,确保数据处理的灵活性和可重复性。每个数据集均经过精心整理,确保数据质量和一致性。
特点
该数据集涵盖了多种自然语言处理任务,如情感分析、主观性分类和问题类型分类等。每个数据集具有独特的类别数量、句子平均长度、词汇量等特征。例如,SST1数据集提供了细粒度的情感标签,而TREC数据集则专注于问题类型的分类。这些数据集不仅规模适中,且与预训练的词向量模型兼容,便于直接应用于深度学习模型的训练与评估。
使用方法
用户可以通过命令行运行预处理脚本,生成Pandas格式的数据文件。生成的.pkl文件可直接通过Python的Pandas库加载,进一步提取句子和标签列表。每个数据集的配置可通过YAML文件进行自定义,确保数据加载的灵活性。此外,数据集的使用文档详细说明了如何配置和加载数据,便于用户快速上手并应用于实际任务中。
背景与挑战
背景概述
MR、SST1、SST2、Subj、TREC、CR、MPQA等数据集是自然语言处理领域中广泛使用的文本分类基准数据集。这些数据集由多位知名研究人员和机构创建,涵盖了从电影评论、情感分析到问题分类等多个任务。例如,MR数据集由Pang和Lee于2005年发布,专注于电影评论的情感分类;SST1和SST2数据集则基于Stanford Sentiment Treebank,由Socher等人于2013年扩展,提供了细粒度的情感标签。这些数据集在推动情感分析、文本分类等领域的研究中发挥了重要作用,成为评估模型性能的标准基准。
当前挑战
这些数据集在构建和应用过程中面临多重挑战。首先,情感分类任务中,文本的情感表达往往具有复杂性和多样性,例如讽刺、隐喻等语言现象增加了分类难度。其次,数据集的标注质量直接影响模型性能,而人工标注的主观性可能导致标签不一致。此外,数据集的规模不平衡问题也较为突出,例如SST1数据集的训练集规模远大于测试集,可能影响模型的泛化能力。在构建过程中,如何确保数据的多样性和代表性,以及如何处理稀疏词汇和未登录词,也是研究者需要解决的关键问题。
常用场景
经典使用场景
在自然语言处理领域,MR、SST1、SST2、Subj、TREC、CR和MPQA数据集被广泛应用于情感分析和文本分类任务。这些数据集通过提供标注好的文本数据,帮助研究者训练和评估机器学习模型,特别是在情感极性判断、主观性分类和问题类型识别等方面。
实际应用
在实际应用中,这些数据集被用于构建智能客服系统、社交媒体情感监控工具以及产品评论分析平台。例如,企业可以利用这些数据集训练模型,自动分析客户反馈中的情感倾向,从而优化产品和服务。此外,新闻机构也可以利用这些数据集对新闻报道进行情感分析,以了解公众对特定事件的态度。
衍生相关工作
基于这些数据集,研究者们开发了许多经典的模型和方法。例如,Socher等人提出的递归神经网络模型在SST数据集上取得了显著的效果,推动了深度学习在情感分析中的应用。此外,Pang和Lee的工作为情感分析领域奠定了理论基础,后续的研究者在此基础上提出了多种改进算法,进一步提升了情感分析的准确性和鲁棒性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作