five

array/socratis_image_text_emotion|情感分析数据集|多模态数据数据集

收藏
hugging_face2023-12-01 更新2024-03-04 收录
情感分析
多模态数据
下载链接:
https://hf-mirror.com/datasets/array/socratis_image_text_emotion
下载链接
链接失效反馈
资源简介:
SOCRATIS是一个包含18K种不同情感及其原因的数据集,基于2K个图像-标题对。该数据集用于研究人类对图像-标题对的情感反应,并比较人类编写的情感反应与机器生成的反应。初步研究显示,人类更喜欢人类编写的情感反应,且当前的评价指标与人类偏好不相关,表明有进一步研究的空间。数据集公开发布,包含测试数据,格式为每个图像-标题对的唯一ID对应一系列情感和解释,部分数据可能缺少匿名化的人口统计信息。

SOCRATIS是一个包含18K种不同情感及其原因的数据集,基于2K个图像-标题对。该数据集用于研究人类对图像-标题对的情感反应,并比较人类编写的情感反应与机器生成的反应。初步研究显示,人类更喜欢人类编写的情感反应,且当前的评价指标与人类偏好不相关,表明有进一步研究的空间。数据集公开发布,包含测试数据,格式为每个图像-标题对的唯一ID对应一系列情感和解释,部分数据可能缺少匿名化的人口统计信息。
提供机构:
array
原始信息汇总

SOCRATIS 数据集概述

数据集描述

SOCRATIS 是一个包含多样性开放式情感反应的基准数据集,针对图像-标题对。该数据集包含 18,000 个多样性的情感及其原因,基于 2,000 个图像-标题对。

数据格式

数据集文件 test.json 包含测试数据,格式如下: json { "unique_id": [[image_path, caption, emotions, explanations, anonymized_demographics], ...] }

  • unique_id:图像-标题对的唯一标识符。
  • 每个 unique_id 键对应一个列表,包含来自不同工作者的多个条目。
  • 每个条目包括情感及其解释,以及可能缺失的匿名化人口统计信息(可选且匿名)。

数据文件

图像文件存储在以下链接中:https://drive.google.com/file/d/1J8SiUEfKqc5rfxE1nwZUrG1Hcz7Djc3G/view?usp=sharing

初步发现

  • 人类更偏好人类编写的情感反应,而非机器生成的情感反应,偏好比例超过两倍。
  • 当前的评估指标未能与人类偏好相关联,表明存在大量研究空间。
AI搜集汇总
数据集介绍
main_image_url
构建方式
SOCRATIS数据集通过精心设计,收集了18,000个多样化的情感反应及其原因,这些反应基于2,000对图像-文本配对。数据集的构建过程包括从多个工作者中收集情感和解释,每个图像-文本配对都有一个唯一的标识符,并包含多个工作者的输入。情感和解释的收集是开放式的,允许工作者自由表达他们的情感反应。此外,数据集还包含了可选的匿名化人口统计信息,尽管许多注释中可能缺少这些信息。
使用方法
SOCRATIS数据集适用于多种任务,包括文本分类、图像分类和对话系统。使用者可以通过访问提供的测试数据文件`test.json`,获取图像-文本配对的情感反应和解释。每个配对都有一个唯一的标识符,并包含多个工作者的输入。图像文件可通过提供的链接下载。数据集的开放性和多样性使其成为情感计算和自然语言处理研究的宝贵资源,尤其适用于需要深入理解人类情感反应的应用场景。
背景与挑战
背景概述
SOCRATIS数据集由ICCV WECIA Workshop 2023(口头报告)发布,主要研究人员通过该项目页面和相关论文详细介绍了其构建过程。该数据集包含18,000个多样化的情感反应及其原因,基于2,000个图像-文本对。其核心研究问题在于探索人类对图像-文本对的情感反应,并比较人类与机器生成的情感反应的差异。初步研究结果表明,人类更倾向于人类书写的情感反应,而非机器生成的反应。此外,现有评估指标未能有效反映人类偏好,这为未来的研究提供了广阔的空间。
当前挑战
SOCRATIS数据集在构建过程中面临的主要挑战包括:首先,如何确保情感反应的多样性和真实性,以反映人类对图像-文本对的复杂情感。其次,现有评估指标未能有效衡量人类偏好,这需要开发新的评估方法。此外,数据集中部分匿名化的人口统计信息缺失,这可能影响情感反应的全面分析。最后,如何平衡数据集的多样性与代表性,以确保其在情感分析和对话系统中的广泛应用,也是一个重要的挑战。
常用场景
经典使用场景
在情感分析与图像理解领域,SOCRATIS数据集以其独特的图像-文本情感反应对为研究者提供了丰富的资源。该数据集通过2000对图像-文本组合,涵盖了18000种多样化的情感反应及其解释,为研究情感识别、情感生成以及人机交互中的情感表达提供了宝贵的数据支持。
解决学术问题
SOCRATIS数据集解决了当前情感分析研究中的一大难题,即机器生成的情感反应与人类实际情感反应之间的差异。通过提供人类对图像-文本对的情感反应及其解释,该数据集为研究者提供了一个评估和改进情感生成模型的基准,有助于推动情感计算领域的发展。
实际应用
在实际应用中,SOCRATIS数据集可用于开发和优化情感识别系统,如社交媒体情感分析、客户服务机器人以及心理健康监测工具。通过理解和模拟人类的情感反应,这些系统能够提供更加个性化和人性化的服务,从而提升用户体验和满意度。
数据集最近研究
最新研究方向
在情感计算与图像理解领域,SOCRATIS数据集的最新研究方向聚焦于探索人类对图像-文本对情感反应的多样性和复杂性。该数据集不仅提供了丰富的情感标签和解释,还揭示了当前情感生成模型与人类偏好之间的显著差距。研究者们正致力于开发新的评估指标,以更准确地衡量模型生成的情感反应与人类真实情感之间的相关性。此外,数据集中匿名化的社会人口统计信息为研究不同群体的情感反应差异提供了宝贵资源,推动了跨文化情感分析和个性化情感模型的前沿研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

LOL (LOw-Light dataset)

LOL 数据集由 500 个低光和正常光图像对组成,分为 485 个训练对和 15 个测试对。低光图像包含照片捕获过程中产生的噪声。大多数图像是室内场景。所有图像的分辨率均为 400×600。

OpenDataLab 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

绿途App——植被信息数据采集服务软件

绿途app是一款植被信息数据采集服务的软件应用,还能在这里进行数据的整理,智能的为用户带来便捷的数据采集服务,还能在这里生成报表分析,更好的服务用户的数据需求,操作起来便捷快速,更好的服务用户,让用户在这里可以享受到优质的信息服务,满足用户的需求。 绿途app介绍 绿途app是一款专业的植被分布数据采集软件。 绿途app可以加载多源遥感地图,同时提供了打点记录模式和拍照记录模式, 并支持离线上传和编辑修改等功能。 绿途app是由北京数字绿土科技有限公司开发,由中国科学院植物研究所提供数据和理论支持。 绿途app特点 绿途app具备普通用户拍照记录模式和专家用户打点记录模式。 拍照模式下,用户可以根据绿途app自带的自动定位功能,在当前GPS位置下进行图像数据的采集,描述类别并上传到服务端。 打点模式下,用户可以根据绿途app自动的谷歌影像和1:100万植被图等图层作为参考,进行目视范围内植被名称的快速标记,上传。 上传到服务端的数据可以通过用户名或者绿途app设置中的扫一扫功能登陆网页端进行数据的查看,审核和下载等功能。 同时,绿途app包含由离线数据存储方便用户在网络条件差的情况下进行数据的获取和后期上传。 绿途app优势 专家打点记录功能,可快速在地图取点标记植被分布信息,对于专家用户快速作业提供了新手段; 离线数据上传功能,有效解决了APP在野外作业没有网络无法实现数据上传的挑战; 数据的编辑和下载使用,同时支持扫一扫登陆网页端等人性化设计。 绿途app功能 1)多源遥感底图(高德卫星图像和谷歌卫星图像)的加载显示和离线下载,方便用户做好外业规划和实地参考; 2)支持兴趣点的创建和导航,方便用户标记感兴趣的研究区,保存历史记录,同时兴趣点支持导航等功能,方便用户标记热点和重点区域再次进行调查; 3)拍照记录功能,为用户提供了快速高效的照片信息采集功能,同时照片记录有用户GPS信息,提升了数据的使用价值; 绿途app说明 绿途app是一款在线进行提供地图信息资源的平台。 这是有中国科学院进行研发制作出来的,所有的信息资源都是可以在线进行查看的, 为的就是帮助用户进行更好的出行与查询的, 是可以在线进行使用导航的,都是有现有的信息进行汇集起来的哦。

植物科学数据中心 收录