five

PanoSent|情感分析数据集|多模态对话数据集

收藏
arXiv2024-08-18 更新2024-08-21 收录
情感分析
多模态对话
下载链接:
https://PanoSent.github.io/
下载链接
链接失效反馈
资源简介:
PanoSent数据集由新加坡国立大学等机构创建,是一个用于多模态对话情感分析的大型高质量数据集。该数据集包含超过10,000条对话,涵盖100多个常见领域和场景,支持多语言(英语、中文、西班牙语)和多模态(文本、图像、音频、视频)。数据集的创建过程结合了人工标注和自动合成,确保了数据的高质量和多样性。PanoSent数据集主要应用于情感分析领域,旨在解决多模态对话中情感元素的全面提取和动态变化分析问题。
提供机构:
新加坡国立大学
创建时间:
2024-08-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
PanoSent数据集的构建结合了人工标注和自动合成两种方式。首先,通过公开的API从多个社交媒体和论坛平台爬取对话数据,经过严格筛选和清洗后,进行人工标注。标注过程遵循SemEval指南,并针对数据集的特定任务定制了标注手册。每个对话至少由三位独立的标注者进行标注,并通过Cohen’s Kappa评分确保标注的一致性和高质量。对于无法达成一致的标注,由语言学家和母语者共同决定最终标注。此外,为了扩大数据集规模,利用GPT-4生成伪对话和标注,并通过多模态数据库检索相应的图像、音频和视频内容,确保数据集的多模态性和高质量。
特点
PanoSent数据集具有多个显著特点。首先,它是一个多模态对话数据集,涵盖了文本、图像、音频和视频等多种模态。其次,数据集支持多语言研究,包括英语、中文和西班牙语。此外,PanoSent数据集包含了多种场景和领域,确保了数据的多样性和广泛性。数据集还特别关注隐式情感元素的识别,提升了情感分析的挑战性和实用性。最后,通过人工标注和自动合成相结合的方式,PanoSent数据集在保证高质量的同时,实现了大规模的数据收集。
使用方法
PanoSent数据集的使用方法主要包括以下几个步骤:首先,研究人员可以根据数据集提供的对话和标注,进行多模态情感分析模型的训练和验证。其次,数据集支持多语言情感分析研究,研究人员可以利用不同语言的数据进行跨语言情感分析。此外,PanoSent数据集还提供了详细的标注指南和标注示例,帮助研究人员理解和使用数据集。最后,数据集的开源性质使得研究人员可以自由下载和使用数据集,进行各种情感分析相关的研究和应用开发。
背景与挑战
背景概述
PanoSent数据集由新加坡国立大学、武汉大学和新西兰奥克兰大学的研究人员共同创建,旨在解决多模态对话情境下的细粒度基于方面的情感分析问题。该数据集的构建填补了现有基于方面的情感分析(ABSA)研究中的空白,特别是在整合多模态、对话上下文、细粒度情感元素以及情感动态变化和认知因果关系方面。PanoSent数据集通过引入全景情感六元组提取和情感翻转分析两个新任务,提供了更全面和细致的情感分析定义,涵盖了文本、图像、音频和视频等多种模态,并支持多语言和多场景的应用。
当前挑战
PanoSent数据集面临的挑战包括:1) 解决领域问题,如多模态对话情境下的细粒度情感分析;2) 构建过程中遇到的挑战,如多模态信息的整合、隐式情感元素的识别以及情感动态变化的检测。此外,数据集还需要处理复杂的对话上下文理解、多模态特征提取以及认知层面的情感推理等问题。这些挑战要求研究者开发新的方法和框架,以有效应对多模态对话情境下的情感分析任务。
常用场景
经典使用场景
PanoSent数据集的经典使用场景在于多模态对话中的细粒度情感分析。通过该数据集,研究者可以进行全景情感六元组提取(Panoptic Sentiment Sextuple Extraction)和情感翻转分析(Sentiment Flipping Analysis),从而深入理解对话中持有者、目标、方面、观点、情感和理由的复杂关系,以及情感随对话动态变化的原因。
解决学术问题
PanoSent数据集解决了现有情感分析研究中缺乏对多模态、对话上下文、细粒度情感元素以及情感动态变化和认知原因的综合考虑的问题。该数据集通过提供大规模、高质量的多语言、多场景对话数据,推动了情感分析领域向更全面、更细致的方向发展,为开发更智能的语音助手、更好的临床诊断和治疗辅助工具以及更人性化的客户服务系统提供了基础。
衍生相关工作
PanoSent数据集的发布催生了一系列相关研究工作,包括但不限于多模态情感分析模型的改进、对话情感动态建模、情感翻转识别和解释、以及跨语言情感分析。研究者们基于PanoSent数据集开发了新的情感推理框架和多模态语言模型,推动了情感分析技术在复杂对话场景中的应用和发展。此外,该数据集还激发了对情感分析中隐含元素和认知原因的深入研究,促进了情感智能领域的创新和进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

TCGA (The Cancer Genome Atlas)

TCGA数据集包含了多种癌症类型的基因组、转录组和表观遗传学数据,旨在通过大规模的基因组分析来理解癌症的发生和发展机制。

portal.gdc.cancer.gov 收录