five

MR, SST-1, SST-2, Subj, TREC, CR

收藏
github2023-11-30 更新2024-05-31 收录
下载链接:
https://github.com/AcademiaSinicaNLPLab/sentiment_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
MR:电影评论,每条评论包含一个句子,任务是检测正面/负面评论。SST-1:斯坦福情感树库,是MR的扩展,提供训练/开发/测试分割和细粒度标签。SST-2:与SST-1相同,但移除了中性评论并使用二元标签。Subj:主观性数据集,任务是分类句子为主观或客观。TREC:TREC问题数据集,任务是将问题分类为6种问题类型。CR:客户对各种产品的评论,任务是预测正面/负面评论。

MR: Movie reviews, each containing a single sentence, with the task of detecting positive/negative reviews. SST-1: Stanford Sentiment Treebank, an extension of MR, providing training/development/test splits and fine-grained labels. SST-2: Similar to SST-1, but with neutral reviews removed and using binary labels. Subj: Subjectivity dataset, with the task of classifying sentences as subjective or objective. TREC: TREC question dataset, with the task of classifying questions into 6 question types. CR: Customer reviews of various products, with the task of predicting positive/negative reviews.
创建时间:
2016-03-18
原始信息汇总

数据集概述

数据集列表及特性

数据集 类别数 平均句子长度 数据集大小 词汇量 在word2vec中出现的单词数 测试集大小
MR 2 20 10662 18765 16448 CV
SST1 5 18 11855 17836 16262 2210
SST2 2 19 9613 16185 14838 1821
Subj 2 23 10000 21323 17913 CV
TREC 6 10 5952 9592 9125 500
CR 2 19 3775 5340 5046 CV
MPQA 2 3 10606 6246 6083 CV

数据集详细描述

  • MR: 电影评论数据集,每条评论包含一个句子,任务是检测评论的正负面情绪。
  • SST-1: 斯坦福情感树库,是MR的扩展,提供细粒度标签(非常正面,正面,中性,负面,非常负面),数据实际以短语级别提供,训练模型同时处理短语和句子,测试时仅评估句子。
  • SST-2: 与SST-1相同,但移除了中性评论,仅保留二元标签。
  • Subj: 主观性数据集,任务是分类句子为主观或客观。
  • TREC: TREC问题数据集,任务是将问题分类为6种类型。
  • CR: 客户对各种产品的评论,任务是预测评论的正负面情绪。
  • MPQA: 多视角问题回答数据集,任务是分类句子。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合多个经典文本分类任务的数据集构建而成,涵盖了电影评论、情感分析、主观性分类、问题分类以及产品评论等多个领域。每个子数据集均经过预处理,转换为统一的pandas格式,便于后续分析。预处理脚本支持通过YAML配置文件灵活加载不同数据集,确保数据格式的一致性。
特点
该数据集的特点在于其多样性和广泛性,涵盖了从二分类到多分类的多种任务类型。每个子数据集均提供了详细的统计信息,包括类别数量、平均句子长度、数据集大小、词汇量等。特别值得注意的是,SST-1和SST-2数据集提供了细粒度的情感标签,且SST-1的训练集规模远超表中所列,因其包含短语级别的标注。
使用方法
使用该数据集时,可通过提供的预处理脚本加载数据,并生成pandas格式的文件。用户可通过Python直接读取生成的pkl文件,获取句子和标签列表。预处理脚本支持通过YAML配置文件自定义加载设置,确保数据加载的灵活性。此外,用户可根据具体任务需求,选择不同的子数据集进行实验和分析。
背景与挑战
背景概述
MR、SST-1、SST-2、Subj、TREC、CR等数据集是自然语言处理领域中的重要资源,广泛应用于情感分析、文本分类等任务。MR数据集由Pang和Lee于2005年创建,专注于电影评论的情感分类,标志着情感分析研究的早期突破。SST-1和SST-2数据集由Stanford团队在2013年扩展,提供了更细粒度的情感标签,推动了深度学习在情感分析中的应用。Subj数据集由Pang和Lee于2004年提出,旨在区分句子的主观性与客观性。TREC数据集由Li和Roth于2002年发布,专注于问题分类任务。CR数据集由Hu和Liu于2004年构建,用于产品评论的情感分析。这些数据集为文本分类和情感分析领域的研究提供了坚实的基础。
当前挑战
这些数据集在应用和构建过程中面临多重挑战。首先,情感分析任务中的标签主观性较强,尤其是SST-1的细粒度情感分类,标注一致性难以保证。其次,数据集的规模有限,如CR数据集仅包含3775条样本,可能导致模型泛化能力不足。此外,SST-1和SST-2的训练数据包含短语和句子,但测试仅基于句子,这种不一致性增加了模型训练的复杂性。在构建过程中,数据预处理和标注的复杂性也是一个显著挑战,例如TREC数据集的问题分类需要精确的领域知识支持。这些挑战要求研究者在模型设计和数据增强方面进行创新,以提升模型的性能与鲁棒性。
常用场景
经典使用场景
在自然语言处理领域,MR、SST-1、SST-2、Subj、TREC和CR数据集广泛应用于情感分析和文本分类任务。这些数据集通过提供标注好的文本数据,帮助研究者训练和评估机器学习模型,尤其是在情感极性检测、主观性分类和问题类型识别等任务中表现出色。例如,MR数据集常用于电影评论的情感分类,而TREC数据集则用于问题分类任务。
衍生相关工作
这些数据集衍生了许多经典的自然语言处理工作。例如,基于SST-1和SST-2数据集,研究者提出了多种深度学习模型,如递归神经网络和注意力机制,显著提升了情感分析的性能。TREC数据集则催生了多种问题分类算法,推动了智能问答系统的发展。此外,MR和CR数据集也被广泛用于情感分类模型的基准测试,推动了该领域的持续进步。
数据集最近研究
最新研究方向
在自然语言处理领域,情感分析和文本分类一直是研究的热点。MR、SST-1、SST-2、Subj、TREC和CR等数据集为这些任务提供了丰富的实验基础。近年来,随着深度学习技术的快速发展,基于这些数据集的模型研究逐渐从传统的机器学习方法转向了深度神经网络,尤其是基于Transformer架构的预训练语言模型,如BERT、GPT等。这些模型在SST-1和SST-2等细粒度情感分类任务中表现出色,能够捕捉到更复杂的语义信息。此外,针对TREC数据集的多类别问题分类任务,研究者们也在探索如何通过多任务学习和迁移学习来提升模型的泛化能力。这些研究不仅推动了情感分析和文本分类技术的发展,也为实际应用场景如社交媒体监控、产品评论分析等提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作