five

MR, SST-1, SST-2, Subj, TREC, CR

收藏
github2019-05-21 更新2024-05-31 收录
下载链接:
https://github.com/kazemmit/sentiment_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MR: 电影评论,每条评论包含一个句子,任务是检测正面/负面评论。SST-1: 斯坦福情感树库,是MR的扩展,提供训练/开发/测试分割和细粒度标签。SST-2: 与SST-1相同,但移除了中性评论并使用二元标签。Subj: 主观性数据集,任务是分类句子为主观或客观。TREC: TREC问题数据集,任务是将问题分类为6种类型。CR: 客户对各种产品的评论,任务是预测正面/负面评论。

MR: Movie Reviews, each review consists of a single sentence, and the task is to detect positive/negative reviews. SST-1: Stanford Sentiment Treebank, an extension of MR, provides train/dev/test splits and fine-grained labels. SST-2: Same as SST-1, but with neutral reviews removed and using binary labels. Subj: Subjectivity dataset, the task is to classify sentences as subjective or objective. TREC: TREC question dataset, the task is to classify questions into 6 types. CR: Customer reviews of various products, the task is to predict positive/negative reviews.
创建时间:
2018-11-28
原始信息汇总

数据集概述

数据集列表

数据集 类别数 平均句子长度 数据集大小 词汇量 存在于word2vec的单词数 测试集大小
MR 2 20 10662 18765 16448 CV
SST1 5 18 11855 17836 16262 2210
SST2 2 19 9613 16185 14838 1821
Subj 2 23 10000 21323 17913 CV
TREC 6 10 5952 9592 9125 500
CR 2 19 3775 5340 5046 CV
MPQA 2 3 10606 6246 6083 CV

数据集详细信息

  • MR: 电影评论数据集,每条评论包含一个句子,任务是检测评论的正负性。
  • SST-1: 斯坦福情感树库,是MR的扩展,提供训练/开发/测试分割和细粒度标签。
  • SST-2: 与SST-1相同,但移除了中性评论,只保留二元标签。
  • Subj: 主观性数据集,任务是分类句子为主观或客观。
  • TREC: TREC问题数据集,任务是将问题分类为6种类型。
  • CR: 客户对各种产品的评论,任务是预测评论的正负性。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于多个自然语言处理任务,涵盖了电影评论、情感分析、主观性判定、问题分类等多个领域。通过预处理脚本的调整,数据被转换为pandas输出格式,便于后续的数据分析和模型训练。构建过程中,数据集被细分为不同的类别和标签,每个数据集均包含训练和测试所需的文本及其对应的标签信息。
特点
该数据集集合了多种自然语言处理任务相关的数据,包括但不限于MR(电影评论情感分析)、SST-1和SST-2(斯坦福情感树库)、Subj(主观性判定)、TREC(问题分类)、CR(产品评论情感分析)。各数据集具有不同的类别数量、平均句子长度、数据集大小、词汇量等特征,为研究者提供了丰富的文本资源和多样化的研究场景。
使用方法
使用该数据集时,首先需要通过预处理脚本将数据转换为pandas的pickle格式,之后可以通过Python的pandas库加载pickle文件,获取文本和标签信息。用户可以根据具体的研究需求,对这些数据进行进一步的探索和模型训练。预处理脚本提供了灵活的参数配置,用户可以根据corpus.yaml中的注释来配置加载设置。
背景与挑战
背景概述
所述数据集集合涉及自然语言处理领域中情感分析的关键研究,其创建旨在为机器学习模型提供基准测试,以评估其在理解和分类文本情感方面的性能。该数据集的创建时间横跨2002年至2013年,涉及的研究人员包括Pang和Lee、Socher等人,以及Li和Roth等。核心研究问题聚焦于文本的情感极性分类、主观性判定以及问题类型分类等。这些数据集在自然语言处理领域具有重大影响力,被广泛用于评估和比较各种情感分析模型的效果。
当前挑战
数据集在构建和应用过程中面临多项挑战,其中包括:1)领域问题挑战,例如MR和CR数据集在解决电影和产品评论的情感分类时,需克服文本表达的多样性和复杂性;2)构建过程中的挑战,如数据清洗、标注一致性以及数据规模的平衡等。特别是在数据标注方面,确保标注的质量和一致性对于训练可靠的情感分析模型至关重要。
常用场景
经典使用场景
在自然语言处理领域,MR, SST-1, SST-2, Subj, TREC, CR等数据集被广泛应用于情感分析任务。MR数据集,针对电影评论进行正负情感分类,是情感分析研究的经典场景。SST-1和SST-2则提供了更细致的情感标签,有助于深入探索情感的多维度表达。Subj数据集用于判断句子的主观性,而TREC和CR数据集则分别针对问题和产品评论进行分类,它们共同构成了文本情感分析的标准测试床。
衍生相关工作
基于这些数据集,研究者衍生出了一系列经典工作,包括情感分析模型的设计、情绪识别算法的研究以及跨领域的情感分析应用探索,极大地丰富了情感分析领域的研究内容和方法论。
数据集最近研究
最新研究方向
在自然语言处理领域,情感分析是当前研究的热点之一。MR, SST-1, SST-2, Subj, TREC, CR这六个数据集为该领域提供了丰富的文本资源。MR数据集以其简洁的单句影评形式,为二元情感分析研究提供了基准;SST-1和SST-2则以其细粒度的情感标签,推动了情感极性判定的深入探索。Subj数据集的引入,使得主观性检测成为了可能。TREC和CR数据集分别针对问答类型分类和产品评论的情感分析,促进了相关任务的研究。这些数据集不仅在模型训练和评估中扮演着重要角色,而且在推动本领域前沿研究方向,如深度学习模型在情感分析中的应用,以及跨领域、跨语言的情感识别等方面,具有深远的影响和意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作