five

sh0416/mr

收藏
Hugging Face2023-03-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sh0416/mr
下载链接
链接失效反馈
官方服务:
资源简介:
Movie Review Data数据集来源于Cornell大学的句子极性数据集v1.0,主要用于文本分类任务。数据集包含5331个正面和5331个负面的电影评论片段,每个片段通常包含一个句子,并且所有片段都经过小写处理。数据集的标签是根据Rotten Tomatoes网页上的评论标记自动生成的,标记为fresh的评论被视为正面,标记为rotten的评论被视为负面。

Movie Review Data数据集来源于Cornell大学的句子极性数据集v1.0,主要用于文本分类任务。数据集包含5331个正面和5331个负面的电影评论片段,每个片段通常包含一个句子,并且所有片段都经过小写处理。数据集的标签是根据Rotten Tomatoes网页上的评论标记自动生成的,标记为fresh的评论被视为正面,标记为rotten的评论被视为负面。
提供机构:
sh0416
原始信息汇总

数据集概述

数据集名称

  • Movie Review Data

数据集来源

  • 原始来源:sentence polarity dataset v1.0,地址为 http://www.cs.cornell.edu/people/pabo/movie-review-data/
  • 相似数据集:https://huggingface.co/datasets/rotten_tomatoes,但分割方式不同。

数据集任务类别

  • text-classification

数据集语言

  • en

数据集内容

  • 数据文件:rt-polaritydata.tar.gz,包含以下两个文件:
    • rt-polarity.pos:包含5331个正面片段。
    • rt-polarity.neg:包含5331个负面片段。
  • 数据格式:每个文件的每一行对应一个片段,通常包含一个句子,所有片段均为小写。

标签决策

  • 正面片段:来自标记为“fresh”的评论。
  • 负面片段:来自标记为“rotten”的评论。

预处理

  • 数据转换:将原始文件编码从"latin_1"转换为"utf8"。
  • 数据分割:将数据随机分割为训练集和测试集,其中训练集包含所有数据,测试集包含2000条数据。
  • 输出文件:生成三个CSV文件,分别为whole.csvtrain.csvtest.csv,包含文本和标签字段。
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,情感分类任务一直是文本分析的核心挑战之一。sh0416/mr数据集源自康奈尔大学发布的句子极性数据集v1.0,最初由Bo Pang和Lillian Lee在2005年ACL会议论文中提出。该数据集从Rotten Tomatoes网站采集影评片段,依据评论标记为“fresh”或“rotten”自动赋予正负标签,共包含5331条正面样本和5331条负面样本。原始数据经过拉丁编码存储,每条样本为单句级别的降序文本。重构时,将正负样本合并后以随机种子42进行洗牌,遵循LM-BFF论文的划分策略,前2000条作为测试集,剩余样本作为训练集,并额外保存全量数据为whole.csv,最终以UTF-8编码导出为CSV格式,包含文本与标签字段。
特点
该数据集的核心特点在于其简洁而均衡的结构设计,适用于二元情感分类任务的基准测试。所有样本均为英文单句,长度适中,便于快速实验迭代。数据规模适中,总计10662条样本,兼顾了模型训练的效率与统计显著性。与常见的rottentomatoes数据集相比,本数据集采用了不同的划分方式,为研究者在不同实验设置下提供了更多灵活性。此外,数据集保留了原始来源的权威性,其标签通过自动规则生成,虽存在一定噪声,但反映了真实场景中的标注偏差,有助于评估模型对弱监督信号的鲁棒性。
使用方法
使用该数据集时,推荐采用文本分类的标准流程。首先通过pandas或csv模块读取CSV文件,提取text字段作为输入,label字段作为二分类目标(1表示正面,0表示负面)。对于模型训练,可直接加载train.csv进行监督学习,测试集test.csv用于评估泛化性能。考虑到样本量较小,可采用预训练语言模型(如BERT)进行微调,或使用传统方法(如TF-IDF结合逻辑回归)。研究者也可利用whole.csv自定义交叉验证划分,以探索不同数据分割对结果的影响。代码示例中,正负样本的读取需注意原始编码为latin_1,转换为UTF-8后处理更为便捷。
背景与挑战
背景概述
情感分析作为自然语言处理领域的重要分支,旨在从文本中自动识别和提取主观情感信息。sh0416/mr数据集源于康奈尔大学Bo Pang与Lillian Lee于2005年发布的经典电影评论极性数据集,其核心研究问题在于如何利用文本特征进行二分类情感判别。该数据集包含5331条正面和5331条负面评论片段,全部来自Rotten Tomatoes网站的影评标注,开创性地将“新鲜”与“腐烂”标签映射为情感极性。作为情感分析领域的奠基性资源,它推动了基于监督学习的文本分类方法发展,为后续深度学习模型在情感任务上的应用提供了标准化基准,至今仍是评估情感分析算法性能的重要参考数据集。
当前挑战
该数据集面临的核心挑战在于情感分类任务的复杂性:评论片段长度短且依赖上下文,易出现反讽、隐喻等隐性情感表达,导致简单词袋模型难以捕捉深层语义。构建过程中,原始标签采用自动标注方式(基于网站“新鲜”/“腐烂”标记),可能引入噪声——部分评论虽整体正面但包含负面短语,反之亦然。此外,数据集未区分不同电影类型或评论者风格,导致领域适应性不足;预处理阶段将原始Latin-1编码转为UTF-8时需确保字符完整性,同时随机划分训练测试集(2000条测试/剩余训练)可能造成类别不平衡或代表性偏差,影响模型泛化能力。
常用场景
经典使用场景
该数据集源自Bo Pang与Lillian Lee于2005年构建的电影评论情感极性语料库,包含5331条正面与5331条负面句子片段,广泛应用于文本分类任务中的情感分析基准测试。其经典使用场景在于评估监督学习模型对二元情感极性的判别能力,尤其是基于词袋模型、支持向量机以及深度学习架构如循环神经网络和Transformer的性能对比。研究者常利用该数据集验证模型在短文本情感分类上的泛化性能,并作为跨领域情感分析研究的起点。
解决学术问题
该数据集解决了电影评论领域情感极性自动识别的核心学术问题,即如何从非结构化文本中高效提取主观态度,并克服标注数据稀缺的挑战。它推动了情感分类中类别关系利用的研究,例如通过引入评分等级来优化分类边界,从而提升模型对模糊情感表达的鲁棒性。其意义在于为情感计算领域提供了标准化评估平台,促进了从传统机器学习到预训练语言模型(如BERT)在情感分析任务上的技术迭代。
衍生相关工作
该数据集衍生了一系列经典工作,包括LM-BFF论文中将其作为少样本学习基准,探索基于提示微调(prompt-tuning)在低资源场景下的情感分类效果。此外,它催生了跨领域情感迁移研究,如利用对抗训练消除领域偏差。后续工作如“Seeing Stars”系列进一步拓展了评分等级预测任务,而基于该数据集的模型压缩与知识蒸馏研究也推动了轻量化情感分析模型的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作