five

MR, SST-1, SST-2, Subj, TREC, CR

收藏
github2018-03-31 更新2024-05-31 收录
下载链接:
https://github.com/lenatech/sentiment_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MR: 电影评论,每篇评论包含一个句子,任务是检测正面/负面评论。SST-1: 斯坦福情感树库,是MR的扩展,提供训练/开发/测试分割和精细标签。SST-2: 与SST-1相同,但移除了中性评论并使用二元标签。Subj: 主观性数据集,任务是分类句子为主观或客观。TREC: TREC问题数据集,任务是将问题分类为6种问题类型。CR: 客户对各种产品的评论,任务是预测正面/负面评论。

MR: Movie Reviews, each review consists of a single sentence, and the task is to detect positive/negative reviews. SST-1: Stanford Sentiment Treebank, an extension of MR, providing train/dev/test splits and fine-grained labels. SST-2: Same as SST-1 but with neutral reviews removed and using binary labels. Subj: Subjectivity dataset, the task is to classify sentences as subjective or objective. TREC: TREC question dataset, the task is to classify questions into 6 question types. CR: Customer reviews of various products, the task is to predict positive/negative reviews.
创建时间:
2017-07-15
原始信息汇总

数据集概述

数据集列表及特征

数据集 类别数 平均句子长度 数据集大小 词汇量 出现在word2vec中的单词数 测试集大小
MR 2 20 10662 18765 16448 CV
SST1 5 18 11855 17836 16262 2210
SST2 2 19 9613 16185 14838 1821
Subj 2 23 10000 21323 17913 CV
TREC 6 10 5952 9592 9125 500
CR 2 19 3775 5340 5046 CV
MPQA 2 3 10606 6246 6083 CV

数据集详细描述

  • MR: 电影评论数据集,每条评论包含一个句子,任务是检测评论的正负性。
  • SST-1: 斯坦福情感树库,是MR的扩展,提供训练/开发/测试分割和细粒度标签。
  • SST-2: 与SST-1相同,但移除了中性评论,仅保留二元标签。
  • Subj: 主观性数据集,任务是分类句子为主观或客观。
  • TREC: 问题分类数据集,任务是将问题分类为6种类型。
  • CR: 客户对各种产品的评论数据集,任务是预测评论的正负性。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建主要基于多个自然语言处理任务相关的文本数据,涵盖了电影评论、情感分析、主观性判定、问题类型分类等多个领域。数据集通过预处理脚本的调整,转化为pandas输出格式,以便于后续的数据处理与分析。构建过程中,针对不同数据集的特点,采用了相应的预处理策略,如分词、标记、以及根据任务需求进行标签的分配。
特点
该数据集的特点在于其多样性及广泛性,包含了多种不同类型的文本数据,能够满足多种自然语言处理任务的需求。各数据集规模适中,既便于管理又足够进行有效的模型训练与测试。此外,数据集中的词汇量丰富,涵盖了word2vec模型中的大多数词汇,有利于模型的准确度提升。各个数据集均提供了测试集,便于评估模型性能。
使用方法
使用该数据集时,首先需要通过预处理脚本将原始数据转化为pandas格式的.pkl文件。之后,可以利用Python中的pandas库读取.pkl文件,获取句子和标签的数据列表。用户可以根据具体任务的需求,对数据进行进一步的处理和分析,如特征提取、模型训练等。详细的预处理和使用方法已在数据集的README文件中给出。
背景与挑战
背景概述
MR, SST-1, SST-2, Subj, TREC, CR这组数据集源于自然语言处理领域,专注于情感分析和文本分类任务。创建于21世纪初,这些数据集主要由Pang和Lee等研究人员提出并构建,旨在为相关研究提供基准。MR数据集收集了电影评论,用于二分类任务,识别正面或负面评论;SST-1和SST-2数据集进一步扩展了MR,提供了更细致的情感标签和训练/验证/测试数据划分;Subj数据集关注句子的主观性分类;TREC数据集针对问题类型分类;CR数据集涉及产品评论的情感分析。这些数据集对自然语言处理领域产生了深远的影响,推动了情感分析技术的发展。
当前挑战
这些数据集面临的挑战主要包括:1)领域问题方面,如何更精确地区分情感标签,尤其是在细粒度情感分类上;2)构建过程中,数据集的规模和质量平衡、数据标注的一致性和准确性,以及跨领域和跨语言的适应性。这些挑战促使研究人员不断提出新的算法和模型,以提升情感分析的准确性和实用性。
常用场景
经典使用场景
在自然语言处理领域,MR, SST-1, SST-2, Subj, TREC, CR等数据集被广泛用于情感分析、文本分类等任务。MR数据集以其简洁的二元情感标签,成为研究情感倾向性的经典使用场景。SST-1与SST-2则因其细粒度的情感标签,被用于深入探讨情感表达的细微差异。Subj数据集在主客观性分类任务中具有典型性,而TREC与CR数据集则分别代表了问题类型分类和产品评论的情感分析,为相关领域的研究提供了标准化数据。
解决学术问题
这些数据集有效解决了学术研究中关于文本情感倾向性、主观性与客观性分类、问题类型识别等关键问题。它们为机器学习模型提供了丰富的训练和测试资源,从而提升了模型的准确性和泛化能力。特别是在情感分析领域,这些数据集帮助研究者探索了文本情感的深层次特征,推动了情感计算理论的发展。
衍生相关工作
这些数据集的广泛应用催生了大量的相关研究工作。例如,基于SST数据集的研究进一步拓展了情感分析的边界,如情感推理、情感因果关系建模等。在主客观性分类方面,Subj数据集促进了文本理解技术的发展。这些研究工作不仅丰富了自然语言处理的理论体系,也为实际应用提供了技术支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作