five

array/socratis_image_text_emotion|情感分析数据集|多模态数据数据集

收藏
hugging_face2023-12-01 更新2024-03-04 收录
情感分析
多模态数据
下载链接:
https://hf-mirror.com/datasets/array/socratis_image_text_emotion
下载链接
链接失效反馈
资源简介:
SOCRATIS是一个包含18K种不同情感及其原因的数据集,基于2K个图像-标题对。该数据集用于研究人类对图像-标题对的情感反应,并比较人类编写的情感反应与机器生成的反应。初步研究显示,人类更喜欢人类编写的情感反应,且当前的评价指标与人类偏好不相关,表明有进一步研究的空间。数据集公开发布,包含测试数据,格式为每个图像-标题对的唯一ID对应一系列情感和解释,部分数据可能缺少匿名化的人口统计信息。

SOCRATIS是一个包含18K种不同情感及其原因的数据集,基于2K个图像-标题对。该数据集用于研究人类对图像-标题对的情感反应,并比较人类编写的情感反应与机器生成的反应。初步研究显示,人类更喜欢人类编写的情感反应,且当前的评价指标与人类偏好不相关,表明有进一步研究的空间。数据集公开发布,包含测试数据,格式为每个图像-标题对的唯一ID对应一系列情感和解释,部分数据可能缺少匿名化的人口统计信息。
提供机构:
array
原始信息汇总

SOCRATIS 数据集概述

数据集描述

SOCRATIS 是一个包含多样性开放式情感反应的基准数据集,针对图像-标题对。该数据集包含 18,000 个多样性的情感及其原因,基于 2,000 个图像-标题对。

数据格式

数据集文件 test.json 包含测试数据,格式如下: json { "unique_id": [[image_path, caption, emotions, explanations, anonymized_demographics], ...] }

  • unique_id:图像-标题对的唯一标识符。
  • 每个 unique_id 键对应一个列表,包含来自不同工作者的多个条目。
  • 每个条目包括情感及其解释,以及可能缺失的匿名化人口统计信息(可选且匿名)。

数据文件

图像文件存储在以下链接中:https://drive.google.com/file/d/1J8SiUEfKqc5rfxE1nwZUrG1Hcz7Djc3G/view?usp=sharing

初步发现

  • 人类更偏好人类编写的情感反应,而非机器生成的情感反应,偏好比例超过两倍。
  • 当前的评估指标未能与人类偏好相关联,表明存在大量研究空间。
AI搜集汇总
数据集介绍
main_image_url
构建方式
SOCRATIS数据集通过精心设计,收集了18,000个多样化的情感反应及其原因,这些反应基于2,000对图像-文本配对。数据集的构建过程包括从多个工作者中收集情感和解释,每个图像-文本配对都有一个唯一的标识符,并包含多个工作者的输入。情感和解释的收集是开放式的,允许工作者自由表达他们的情感反应。此外,数据集还包含了可选的匿名化人口统计信息,尽管许多注释中可能缺少这些信息。
使用方法
SOCRATIS数据集适用于多种任务,包括文本分类、图像分类和对话系统。使用者可以通过访问提供的测试数据文件`test.json`,获取图像-文本配对的情感反应和解释。每个配对都有一个唯一的标识符,并包含多个工作者的输入。图像文件可通过提供的链接下载。数据集的开放性和多样性使其成为情感计算和自然语言处理研究的宝贵资源,尤其适用于需要深入理解人类情感反应的应用场景。
背景与挑战
背景概述
SOCRATIS数据集由ICCV WECIA Workshop 2023(口头报告)发布,主要研究人员通过该项目页面和相关论文详细介绍了其构建过程。该数据集包含18,000个多样化的情感反应及其原因,基于2,000个图像-文本对。其核心研究问题在于探索人类对图像-文本对的情感反应,并比较人类与机器生成的情感反应的差异。初步研究结果表明,人类更倾向于人类书写的情感反应,而非机器生成的反应。此外,现有评估指标未能有效反映人类偏好,这为未来的研究提供了广阔的空间。
当前挑战
SOCRATIS数据集在构建过程中面临的主要挑战包括:首先,如何确保情感反应的多样性和真实性,以反映人类对图像-文本对的复杂情感。其次,现有评估指标未能有效衡量人类偏好,这需要开发新的评估方法。此外,数据集中部分匿名化的人口统计信息缺失,这可能影响情感反应的全面分析。最后,如何平衡数据集的多样性与代表性,以确保其在情感分析和对话系统中的广泛应用,也是一个重要的挑战。
常用场景
经典使用场景
在情感分析与图像理解领域,SOCRATIS数据集以其独特的图像-文本情感反应对为研究者提供了丰富的资源。该数据集通过2000对图像-文本组合,涵盖了18000种多样化的情感反应及其解释,为研究情感识别、情感生成以及人机交互中的情感表达提供了宝贵的数据支持。
解决学术问题
SOCRATIS数据集解决了当前情感分析研究中的一大难题,即机器生成的情感反应与人类实际情感反应之间的差异。通过提供人类对图像-文本对的情感反应及其解释,该数据集为研究者提供了一个评估和改进情感生成模型的基准,有助于推动情感计算领域的发展。
实际应用
在实际应用中,SOCRATIS数据集可用于开发和优化情感识别系统,如社交媒体情感分析、客户服务机器人以及心理健康监测工具。通过理解和模拟人类的情感反应,这些系统能够提供更加个性化和人性化的服务,从而提升用户体验和满意度。
数据集最近研究
最新研究方向
在情感计算与图像理解领域,SOCRATIS数据集的最新研究方向聚焦于探索人类对图像-文本对情感反应的多样性和复杂性。该数据集不仅提供了丰富的情感标签和解释,还揭示了当前情感生成模型与人类偏好之间的显著差距。研究者们正致力于开发新的评估指标,以更准确地衡量模型生成的情感反应与人类真实情感之间的相关性。此外,数据集中匿名化的社会人口统计信息为研究不同群体的情感反应差异提供了宝贵资源,推动了跨文化情感分析和个性化情感模型的前沿研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

De-Solar Dataset

De-Solar Dataset是一个基于无人机的高质量数据集,用于支持太阳能光伏系统中的障碍物定位和性能评估。它包含超过3,500张手动标记的图像,拍摄高度在15到50英尺之间,每张图像都标注了常见表面障碍物的多边形掩码,如树枝、泥土、树叶、鸟粪和纸张。除了图像数据外,数据集还包括时间戳对齐的电压读数与环境元数据,能够详细分析特定障碍物如何影响面板性能。数据集位于De-Solar Dataset文件夹中,并分为以下组件:Voltage_Data/(包含图像路径、电压读数和环境变量的Excel文件)、Original/(包括原始无人机图像、对应的标注JSON文件和分割掩码)、Cropped_Folder/(包含从原始图像中提取的太阳能电池板的裁剪图像,用于模型训练)、Ground_Folder/(包含数据集中的地面图像)、SolarPV/(包含Solarformer++的数据集)。

github 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录