five

cornell-movie-review-data/rotten_tomatoes

收藏
Hugging Face2024-03-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/cornell-movie-review-data/rotten_tomatoes
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含来自Rotten Tomatoes电影评论的5,331条正面和5,331条负面处理过的句子的数据集。该数据集首次用于Bo Pang和Lillian Lee在2005年发表的论文《Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales》。数据集用于文本分类任务,特别是情感分类。数据集的结构包括训练集、验证集和测试集,分别包含8530、1066和1066个样本。数据集的下载大小为0.49 MB,生成大小为1.34 MB,总磁盘使用量为1.84 MB。

这是一个包含来自Rotten Tomatoes电影评论的5,331条正面和5,331条负面处理过的句子的数据集。该数据集首次用于Bo Pang和Lillian Lee在2005年发表的论文《Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales》。数据集用于文本分类任务,特别是情感分类。数据集的结构包括训练集、验证集和测试集,分别包含8530、1066和1066个样本。数据集的下载大小为0.49 MB,生成大小为1.34 MB,总磁盘使用量为1.84 MB。
提供机构:
cornell-movie-review-data
原始信息汇总

数据集概述

数据集摘要

  • 名称: RottenTomatoes - MR Movie Review Data
  • 描述: 包含5,331条正面和5,331条负面处理的Rotten Tomatoes电影评论句子。该数据集首次用于Bo Pang和Lillian Lee的论文《Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales》,发表于2005年的ACL会议。

支持的任务和排行榜

  • 任务类别: 文本分类
  • 任务ID: 情感分类

语言

  • 语言: 英语

数据集结构

数据实例

  • 验证集示例: json { "label": 1, "text": "Sometimes the days and nights just drag on -- it s the morning that make me feel alive . And I have one thing to thank for that : pancakes . " }

数据字段

  • text: 字符串特征
  • label: 分类标签,可能值包括neg (0) 和 pos (1)

数据分割

  • 训练集: 8530条数据
  • 验证集: 1066条数据
  • 测试集: 1066条数据

数据集创建

数据集信息

  • 特征:
    • text: 字符串类型
    • label: 分类标签,包含negpos
  • 分割:
    • train: 8530条数据,1074810字节
    • validation: 1066条数据,134679字节
    • test: 1066条数据,135972字节
  • 下载大小: 487770字节
  • 数据集大小: 1345461字节

训练-评估指标

  • 配置: default
  • 任务: 文本分类
  • 任务ID: 二分类
  • 分割:
    • train_split: train
    • eval_split: test
  • 列映射:
    • text: text
    • label: target
  • 评估指标:
    • 准确率 (Accuracy)
    • F1 (F1)
    • F1 micro (F1 micro)
    • F1 weighted (F1 weighted)
    • 精确率 macro (Precision macro)
    • 精确率 micro (Precision micro)
    • 精确率 weighted (Precision weighted)
    • 召回率 macro (Recall macro)
    • 召回率 micro (Recall micro)
    • 召回率 weighted (Recall weighted)

引用信息

@InProceedings{Pang+Lee:05a, author = {Bo Pang and Lillian Lee}, title = {Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales}, booktitle = {Proceedings of the ACL}, year = 2005 }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由5,331条正面和5,331条负面电影评论组成,源自Rotten Tomatoes网站。这些评论经过处理,形成了一个用于情感分类的文本数据集。数据集的构建遵循了经典的80%训练、10%验证和10%测试的划分比例,确保了数据在不同应用场景下的适用性。
特点
RottenTomatoes数据集的主要特点在于其平衡的正面和负面评论数量,以及其广泛应用于情感分类任务。数据集的结构简洁,包含两个主要字段:文本(text)和标签(label),其中标签分为'neg'和'pos'两种。这种设计使得数据集在情感分析模型的训练和评估中具有高度的实用性和可操作性。
使用方法
使用该数据集时,用户可以将其导入到机器学习框架中,利用'text'字段作为输入特征,'label'字段作为目标变量进行模型训练。数据集提供了详细的训练、验证和测试集划分,用户可以根据需要选择合适的子集进行实验。此外,数据集支持多种评估指标,如准确率、F1分数等,便于用户全面评估模型的性能。
背景与挑战
背景概述
电影评论情感分析是自然语言处理领域的一个重要研究方向,旨在通过分析文本内容来判断评论者的情感倾向。Cornell Movie Review Data中的Rotten Tomatoes数据集由Bo Pang和Lillian Lee于2005年创建,该数据集包含了5,331条正面和5,331条负面电影评论,首次用于他们的研究论文《Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales》。该数据集的引入极大地推动了情感分类技术的发展,为后续研究提供了宝贵的资源。
当前挑战
Rotten Tomatoes数据集在构建过程中面临的主要挑战包括数据标注的一致性和情感表达的多样性。由于评论文本的情感表达可能受到多种因素影响,如语言风格、文化背景和个人情感状态,确保标注的准确性和一致性是一个复杂的问题。此外,数据集的规模和多样性也对模型的泛化能力提出了挑战,尤其是在处理极端情感表达和模糊语义时。这些挑战要求研究者在模型设计和训练过程中采取更为精细的方法,以提高情感分类的准确性和鲁棒性。
常用场景
经典使用场景
在情感分析领域,Cornell Movie Review Data/Rotten_Tomatoes数据集被广泛用于训练和评估情感分类模型。该数据集包含10,662条电影评论,分为正面和负面两类,为研究人员提供了一个标准化的基准来测试和比较不同的情感分析算法。通过使用该数据集,研究者可以开发和优化能够自动识别和分类文本情感的模型,从而推动情感分析技术的发展。
解决学术问题
该数据集解决了情感分析领域中一个关键的学术问题,即如何有效地从文本中提取情感信息并进行分类。通过提供大量标注的电影评论数据,它帮助研究人员验证和改进情感分类算法,从而提高了模型的准确性和鲁棒性。此外,该数据集还促进了跨学科研究,如自然语言处理和机器学习,为情感分析技术的理论和应用研究提供了坚实的基础。
衍生相关工作
基于Cornell Movie Review Data/Rotten_Tomatoes数据集,许多相关研究工作得以展开。例如,Pang和Lee在2005年的研究中首次使用了该数据集,提出了基于情感词典和机器学习的情感分类方法。随后,许多研究者在此基础上进一步探索了深度学习模型在情感分析中的应用,如卷积神经网络(CNN)和循环神经网络(RNN)。这些研究不仅推动了情感分析技术的发展,也为其他自然语言处理任务提供了宝贵的经验和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作