five

TinyEmo-EmoReasonHQ-Claude-1.4k

收藏
Hugging Face2024-10-05 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/ggcristian/TinyEmo-EmoReasonHQ-Claude-1.4k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于情感视觉指令微调的数据集,旨在训练模型从图像中生成情感推理。它将预训练数据集转换为指令跟随格式,并结合了WEBEmo训练数据集中的213,952张图像,这些图像根据Parrott的情感分类法进行标注。此外,数据集还包括1,500个使用Claude 3.5 Sonnet生成的合成高质量情感推理样本。数据集包含215,452个单任务对话,旨在微调模型以进行特定的情感推理和视觉情感分析任务。

This dataset is a sentiment-aware visual instruction tuning dataset designed to train models to generate sentiment reasoning from images. It converts pretrained datasets into instruction-following format, and incorporates 213,952 images from the WEBEmo training dataset, which are annotated according to Parrott’s emotion taxonomy. Additionally, the dataset includes 1,500 high-quality synthetic sentiment reasoning samples generated using Claude 3.5 Sonnet. The dataset contains 215,452 single-task dialogues, intended to fine-tune models for specific sentiment reasoning and visual sentiment analysis tasks.
创建时间:
2024-09-27
原始信息汇总

TinyEmo-EmoReasonHQ-Claude-1.4k

概述

  • 任务类别: 文本生成
  • 标签: 视觉情感分析、对话、视觉问答、情感推理、多模态LLM、WEBEmo、Claude
  • 语言: 英语
  • 数据集大小: 1K<n<10K

描述

  • 设计目的: 用于训练模型从图像中生成情感推理。
  • 数据来源:
    • 基于WEBEmo训练数据集(包含213,952张根据Parrott情感分类法标注的图像)。
    • 包含1,500个使用Claude 3.5 Sonnet生成的合成高质量情感推理样本。
  • 数据集组成: 包含215,452个单任务对话,用于微调模型进行特定的情感推理和视觉情感分析任务。

重要提示

示例

  • 示例描述: 使用WEBEmo训练数据集中的样本220_F_49388255_COXFeaC0cUrO4PWyyiKJ8UYH7CkX2TZ4,标注为“nervousness”情感标签,采用指令跟随格式进行微调。
  • 示例内容: json { "image": "/root/TFM_CristianGutierrez/data/partitioned_WEBEmo_fine/train/nervousness/220_F_49388255_COXFeaC0cUrO4PWyyiKJ8UYH7CkX2TZ4.jpg", "id": "220_F_49388255_COXFeaC0cUrO4PWyyiKJ8UYH7CkX2TZ4", "conversations": [ { "from": "human", "value": "<image> Provide emotional reasoning about the image, on what you feel and how is the depicted emotion. Also choose the emotion that best corresponds to the image from the following options:

Labels: [nervousness, optimism, sympathy]

Important: note that the correct label is nervousness." }, { "from": "gpt", "value": "Reasoning: The image of a brain with glowing neurons may evoke feelings of nervousness or anxiety due to the association of the glowing neurons with heightened brain activity and potential cognitive overload.

Predicted Label: nervousness" } ] }

引用

@mastersthesis{gutierrez2024tinyemo, title = {TinyEmo: Scaling down Emotional Reasoning via Metric Projection}, author = {Cristian Gutierrez}, year = 2024, month = {September}, address = {Barcelona, Spain}, note = {Available at url{https://ddd.uab.cat/pub/tfg/2024/301610/TFM_CristianGutierrez_2024.pdf}}, school = {Universitat Autonoma de Barcelona (UAB)}, type = {Masters thesis in Computer Vision} }

搜集汇总
数据集介绍
main_image_url
构建方式
TinyEmo-EmoReasonHQ-Claude-1.4k数据集的构建基于WEBEmo训练数据集,该数据集包含213,952张图像,并根据Parrott的情感分类法进行标注。为了增强数据集的多样性和质量,研究者引入了1,500个由Claude 3.5 Sonnet生成的高质量情感推理样本。这些样本通过指令跟随格式进行转换,最终形成了215,452个单任务对话,专门用于情感推理和视觉情感分析任务的微调。
特点
该数据集的特点在于其多模态性质,结合了视觉和文本信息,能够有效支持情感推理任务。数据集中的每个样本都包含图像和对应的情感推理对话,涵盖了多种情感标签。此外,数据集通过引入Claude生成的高质量样本,进一步提升了模型的推理能力和情感分析的准确性。
使用方法
使用TinyEmo-EmoReasonHQ-Claude-1.4k数据集时,研究者可以通过加载图像和对应的对话数据进行模型微调。每个对话任务要求模型根据图像生成情感推理,并从给定的情感标签中选择最合适的选项。数据集的指令跟随格式确保了模型能够按照特定任务要求进行训练,从而提升其在情感推理和视觉情感分析任务中的表现。
背景与挑战
背景概述
TinyEmo-EmoReasonHQ-Claude-1.4k数据集由Cristian Gutierrez于2024年创建,旨在通过图像生成情感推理,以支持视觉情感分析和多模态大语言模型的微调。该数据集基于WEBEmo训练集,包含213,952张图像,并按照Parrott的情感分类法进行标注。此外,数据集还引入了1,500个由Claude 3.5 Sonnet生成的高质量合成情感推理样本,总计215,452个单任务对话。该数据集的研究背景源于情感计算和视觉问答领域的快速发展,旨在通过指令跟随格式提升模型在情感推理任务中的表现。其核心研究问题在于如何从视觉内容中提取并生成准确的情感推理,为情感智能系统的开发提供了重要支持。
当前挑战
TinyEmo-EmoReasonHQ-Claude-1.4k数据集面临的挑战主要集中在两个方面。首先,情感推理任务本身具有高度主观性,不同个体对同一图像的情感解读可能存在显著差异,这对模型的泛化能力提出了较高要求。其次,数据集的构建过程中,如何确保合成样本的情感标注与真实图像情感的一致性是一个关键问题。尽管Claude 3.5 Sonnet生成的样本质量较高,但其与真实数据之间的语义对齐仍需进一步验证。此外,数据集规模相对较小,可能限制了模型在复杂情感推理任务中的表现。这些挑战为未来研究提供了方向,例如通过引入更多样化的数据源或改进合成样本的生成方法,以进一步提升数据集的质量和实用性。
常用场景
经典使用场景
TinyEmo-EmoReasonHQ-Claude-1.4k数据集主要用于训练模型从图像中生成情感推理。该数据集通过将预训练数据集转换为指令跟随格式,结合了WEBEmo数据集中的213,952张图像和1,500个由Claude 3.5 Sonnet生成的高质量情感推理样本。这些数据被设计用于特定情感推理和视觉情感分析任务的微调,帮助模型更好地理解和生成与图像相关的情感推理。
衍生相关工作
该数据集衍生了多项经典工作,特别是在情感推理和多模态学习领域。基于该数据集的研究成果已被广泛应用于情感计算、视觉问答和智能助手等领域。例如,Cristian Gutierrez在其硕士论文中提出的TinyEmo模型,便是基于该数据集进行的情感推理研究,该模型在情感推理任务中表现出色,为后续研究提供了重要参考。
数据集最近研究
最新研究方向
近年来,情感推理与视觉情感分析领域的研究逐渐聚焦于多模态大语言模型(Multimodal LLM)的应用。TinyEmo-EmoReasonHQ-Claude-1.4k数据集通过将图像与情感标签结合,生成了高质量的情感推理样本,为模型在视觉情感分析任务中的微调提供了重要支持。该数据集结合了WEBEmo的图像标注数据与Claude 3.5 Sonnet生成的高质量推理样本,推动了情感推理任务的精细化与个性化发展。这一研究方向不仅提升了模型在情感识别中的表现,还为多模态情感分析的实际应用提供了新的可能性,例如在智能客服、心理健康监测等领域的潜在应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作