array/socratis_image_text_emotion

Hugging Face2023-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/array/socratis_image_text_emotion

下载链接

链接失效反馈

资源简介：

SOCRATIS是一个包含18K种不同情感及其原因的数据集，基于2K个图像-标题对。该数据集用于研究人类对图像-标题对的情感反应，并比较人类编写的情感反应与机器生成的反应。初步研究显示，人类更喜欢人类编写的情感反应，且当前的评价指标与人类偏好不相关，表明有进一步研究的空间。数据集公开发布，包含测试数据，格式为每个图像-标题对的唯一ID对应一系列情感和解释，部分数据可能缺少匿名化的人口统计信息。

提供机构：

array

原始信息汇总

SOCRATIS 数据集概述

数据集描述

SOCRATIS 是一个包含多样性开放式情感反应的基准数据集，针对图像-标题对。该数据集包含 18,000 个多样性的情感及其原因，基于 2,000 个图像-标题对。

数据格式

数据集文件 test.json 包含测试数据，格式如下： json { "unique_id": [[image_path, caption, emotions, explanations, anonymized_demographics], ...] }

unique_id：图像-标题对的唯一标识符。
每个 unique_id 键对应一个列表，包含来自不同工作者的多个条目。
每个条目包括情感及其解释，以及可能缺失的匿名化人口统计信息（可选且匿名）。

数据文件

图像文件存储在以下链接中：https://drive.google.com/file/d/1J8SiUEfKqc5rfxE1nwZUrG1Hcz7Djc3G/view?usp=sharing

初步发现

人类更偏好人类编写的情感反应，而非机器生成的情感反应，偏好比例超过两倍。
当前的评估指标未能与人类偏好相关联，表明存在大量研究空间。

AI搜集汇总

数据集介绍

构建方式

SOCRATIS数据集通过精心设计，收集了18,000个多样化的情感反应及其原因，这些反应基于2,000对图像-文本配对。数据集的构建过程包括从多个工作者中收集情感和解释，每个图像-文本配对都有一个唯一的标识符，并包含多个工作者的输入。情感和解释的收集是开放式的，允许工作者自由表达他们的情感反应。此外，数据集还包含了可选的匿名化人口统计信息，尽管许多注释中可能缺少这些信息。

使用方法

SOCRATIS数据集适用于多种任务，包括文本分类、图像分类和对话系统。使用者可以通过访问提供的测试数据文件`test.json`，获取图像-文本配对的情感反应和解释。每个配对都有一个唯一的标识符，并包含多个工作者的输入。图像文件可通过提供的链接下载。数据集的开放性和多样性使其成为情感计算和自然语言处理研究的宝贵资源，尤其适用于需要深入理解人类情感反应的应用场景。

背景与挑战

背景概述

SOCRATIS数据集由ICCV WECIA Workshop 2023（口头报告）发布，主要研究人员通过该项目页面和相关论文详细介绍了其构建过程。该数据集包含18,000个多样化的情感反应及其原因，基于2,000个图像-文本对。其核心研究问题在于探索人类对图像-文本对的情感反应，并比较人类与机器生成的情感反应的差异。初步研究结果表明，人类更倾向于人类书写的情感反应，而非机器生成的反应。此外，现有评估指标未能有效反映人类偏好，这为未来的研究提供了广阔的空间。

当前挑战

SOCRATIS数据集在构建过程中面临的主要挑战包括：首先，如何确保情感反应的多样性和真实性，以反映人类对图像-文本对的复杂情感。其次，现有评估指标未能有效衡量人类偏好，这需要开发新的评估方法。此外，数据集中部分匿名化的人口统计信息缺失，这可能影响情感反应的全面分析。最后，如何平衡数据集的多样性与代表性，以确保其在情感分析和对话系统中的广泛应用，也是一个重要的挑战。

常用场景

经典使用场景

在情感分析与图像理解领域，SOCRATIS数据集以其独特的图像-文本情感反应对为研究者提供了丰富的资源。该数据集通过2000对图像-文本组合，涵盖了18000种多样化的情感反应及其解释，为研究情感识别、情感生成以及人机交互中的情感表达提供了宝贵的数据支持。

解决学术问题

SOCRATIS数据集解决了当前情感分析研究中的一大难题，即机器生成的情感反应与人类实际情感反应之间的差异。通过提供人类对图像-文本对的情感反应及其解释，该数据集为研究者提供了一个评估和改进情感生成模型的基准，有助于推动情感计算领域的发展。

实际应用

在实际应用中，SOCRATIS数据集可用于开发和优化情感识别系统，如社交媒体情感分析、客户服务机器人以及心理健康监测工具。通过理解和模拟人类的情感反应，这些系统能够提供更加个性化和人性化的服务，从而提升用户体验和满意度。

数据集最近研究