five

OV-MERD|情感识别数据集|多模态数据数据集

收藏
arXiv2024-10-02 更新2024-10-09 收录
情感识别
多模态数据
下载链接:
http://arxiv.org/abs/2410.01495v1
下载链接
链接失效反馈
资源简介:
OV-MERD数据集是由中国科学院自动化研究所等机构合作构建的开放词汇多模态情感识别数据集。该数据集包含248种情感类别,每个样本通常有2到4个标签,远超现有数据集的情感类别数量。数据集的创建过程结合了人类和大型语言模型(LLM)的协作标注策略,确保了标签的丰富性和准确性。OV-MERD数据集旨在解决传统情感识别方法中标签空间有限的问题,通过捕捉更广泛的情感表达,推动情感AI的发展,特别是在人机交互等应用领域。
提供机构:
中国科学院自动化研究所
创建时间:
2024-10-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
OV-MERD数据集的构建采用了人机协作策略,结合了大型语言模型(LLM)和人类专家的标注。首先,通过LLM对音频和视频进行预标注,提取初始线索。随后,人类专家对这些预标注结果进行详细检查,消除错误并补充遗漏的信息。最终,通过LLM整合所有线索,生成包含多模态信息的描述,即CLUE-Multi。这一过程确保了标注的丰富性和准确性,为开放词汇的多模态情感识别提供了坚实的基础。
特点
OV-MERD数据集的主要特点在于其开放词汇的情感标签,涵盖了广泛的情感类别,远超传统数据集的有限标签。每个样本通常包含2到4个标签,提供了更为细致和全面的情感描述。此外,数据集通过人机协作的方式生成,确保了标注的高质量和多样性,能够捕捉到人类情感的复杂性和细微差别。
使用方法
OV-MERD数据集适用于开放词汇的多模态情感识别任务,可用于训练和评估模型在识别任意数量和类别的情感方面的能力。使用者可以通过整合音频、视频和文本等多模态线索,利用数据集中的CLUE-Multi描述进行情感状态的推断。此外,数据集还提供了详细的评估指标和基准,帮助研究者更好地理解和应用这一新型数据集。
背景与挑战
背景概述
多模态情感识别(MER)是一个重要的研究课题。传统的情感识别方法通常依赖于有限的情感标签集,这些标签无法充分反映人类情感的丰富性。为了解决这一问题,我们提出了一种新的多模态情感识别范式,称为开放词汇情感识别(OV-MER)。OV-MER通过扩展情感标签集,涵盖更广泛的情感类别,从而更准确地捕捉人类情感的复杂性和细微差别。为了支持这一转变,我们构建了一个新的数据库,该数据库基于大语言模型(LLM)和人工协作注释,并提供了相应的评估指标和一系列基准测试。我们的工作旨在推动情感识别从基本情感向更细致情感的发展,为情感人工智能的发展做出贡献。
当前挑战
构建OV-MERD数据集面临的主要挑战包括:1) 情感标签的广泛性和细微性,使得全面注释变得复杂;2) 传统注释方法受限于预定义的情感类别,无法满足OV-MER的需求。为了应对这些挑战,我们提出了一种人机协作策略,利用LLM增强标签的丰富性。此外,由于没有固定的标签空间,模型可能预测出与真实情感相似但表达不同的情感,因此我们设计了新的评估指标来提供更可靠的评估结果。
常用场景
经典使用场景
OV-MERD数据集在多模态情感识别领域中具有经典应用场景,特别是在需要捕捉人类情感丰富性和细微差别的研究中。该数据集通过结合语言模型和人工协作注释,提供了超越传统基本情感标签的广泛情感标签,使得研究者能够更准确地识别和理解复杂的人类情感状态。
实际应用
OV-MERD数据集在实际应用中具有广泛潜力,特别是在需要高度个性化和情感智能的人机交互系统中。例如,在智能客服、心理健康监测和个性化内容推荐等领域,该数据集能够帮助系统更准确地理解和响应用户的情感状态,从而提供更加贴合用户需求的服务。
衍生相关工作
OV-MERD数据集的提出激发了一系列相关研究工作,包括但不限于多模态情感识别模型的改进、情感标签生成算法的研究以及情感数据集扩展方法的探索。这些工作不仅提升了情感识别技术的准确性和鲁棒性,还推动了情感计算领域的发展,为未来的研究和应用奠定了坚实基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录