five

SMILE Dataset|情感分析数据集|多模态学习数据集

收藏
github2024-03-31 更新2024-05-31 收录
情感分析
多模态学习
下载链接:
https://github.com/postech-ami/SMILE-Dataset
下载链接
链接失效反馈
资源简介:
[NAACL'24] Repository for "SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models"
创建时间:
2024-03-31
原始信息汇总

SMILE Dataset 概述

数据集版本

  • SMILE Dataset v.2: 当前正在更新,更新后将更新笑的推理基准。
  • SMILE Dataset v.1: 提供用于评估的版本。

数据集结构

  • SMILE Dataset v.2:

    ├── annotations | ├── data_split.json | ├── GT_laughter_reason.json | └── multimodal_textual_representation.json | └── videos └── SMILE_videos.zip ├── video_clips └── video_segments

    • data_split.json: 训练、验证、测试分割的关键索引。
    • GT_laughter_reason.json: 视频片段的Ground-Truth笑的原因。
    • multimodal_textual_representation.json: 从视频片段编码的多模态文本表示。
    • video_clips: 来自情景喜剧和TED的887个视频片段。
    • video_segments: 从视频片段中修剪的4482个视频段,按话语分割。
  • SMILE Dataset v.1 for evaluation:

    ├── SMILE_v1_evaluation ├── smile_reasoning_train.json ├── smile_reasoning_val.json ├── sitcom_reasoning_train.json ├── sitcom_reasoning_val.json ├── ted_reasoning_train.json └── ted_reasoning_val.json

评估

  • 笑的推理:
    • 提供使用GPT3和LLaMA的推理代码。
    • GPT3需要用户自己的openai api密钥,并收取运行模型的费用。
    • LLaMA提供预训练权重,仅供研究使用。

引用信息

@inproceedings{hyun-etal-2024-smile, title = "{SMILE}: Multimodal Dataset for Understanding Laughter in Video with Language Models", author = "Hyun, Lee and Sung-Bin, Kim and Han, Seungju and Yu, Youngjae and Oh, Tae-Hyun", booktitle = "Findings of the Association for Computational Linguistics: NAACL 2024", publisher = "Association for Computational Linguistics" }

AI搜集汇总
数据集介绍
main_image_url
构建方式
SMILE数据集的构建基于对视频片段的细致分析,特别是对情景喜剧和TED演讲中的笑声进行多模态文本表示的编码。数据集包括887个视频片段和4482个视频片段,这些片段通过话语进行修剪。数据集的构建过程涉及对视频内容的深度解析,生成包括数据分割、笑声原因标注以及多模态文本表示在内的多种标注文件。
特点
SMILE数据集的显著特点在于其多模态的文本表示,这种表示方法结合了视频和文本信息,为理解笑声提供了丰富的上下文。此外,数据集的构建考虑了不同视频类型的差异,如情景喜剧和TED演讲,这为研究提供了多样化的数据基础。数据集还提供了详细的评估工具和预训练模型,便于研究人员进行深入的实验和分析。
使用方法
使用SMILE数据集时,研究人员可以下载并解压数据集,其中包括视频片段和多种标注文件。数据集提供了详细的安装和评估指南,支持使用GPT3和LLaMA模型进行推理实验。研究人员可以通过提供的代码进行上下文和零样本实验,以及使用预训练的LLaMA模型进行微调实验。数据集的灵活性和详细的使用指南使其适用于多种研究场景。
背景与挑战
背景概述
SMILE数据集,全称为'SMILE: A Multimodal Dataset for Understanding Laughter with Language Models',是由Lee Hyun等研究人员在2024年NAACL会议上提出的。该数据集的核心研究问题在于通过多模态数据理解视频中的笑声,并利用语言模型进行分析。SMILE数据集的创建旨在填补多模态笑声理解领域的空白,其包含了从情景喜剧和TED演讲中提取的887个视频片段和4482个视频片段,这些数据被用于训练和验证多模态文本表示模型。该数据集的发布不仅推动了多模态数据处理技术的发展,也为笑声理解这一复杂情感分析领域提供了宝贵的资源。
当前挑战
SMILE数据集在构建过程中面临多项挑战。首先,多模态数据的整合与标注是一个复杂的过程,需要精确地从视频中提取笑声并进行语义标注。其次,数据集的多样性问题,即如何确保从不同类型的视频(如情景喜剧和TED演讲)中提取的数据能够代表广泛的文化和语言背景,是一个重要的挑战。此外,数据集的更新与维护也是一个持续的挑战,特别是在引入新的视频内容和更新标注时,如何保持数据的一致性和准确性。最后,利用该数据集进行模型训练时,如何有效地处理多模态数据的异质性,确保模型能够准确理解和推理笑声背后的情感和语境,也是当前研究中的一个重要课题。
常用场景
经典使用场景
在多模态语言模型的研究领域,SMILE数据集以其独特的笑声理解任务而著称。该数据集通过整合视频片段和文本表示,为研究人员提供了一个评估和训练模型理解笑声背后情感和语境的平台。经典的使用场景包括利用SMILE数据集进行笑声识别、情感分析以及多模态融合模型的训练,这些应用在提升人机交互的自然性和情感理解方面具有重要意义。
衍生相关工作
基于SMILE数据集,研究者们已经开展了一系列相关工作,包括但不限于笑声识别模型的优化、多模态情感分析算法的改进以及跨模态信息融合技术的探索。这些工作不仅在学术界引起了广泛关注,也在工业界得到了实际应用,推动了多模态技术的发展和应用。
数据集最近研究
最新研究方向
在多模态数据处理领域,SMILE数据集的最新研究方向主要集中在利用语言模型理解视频中的笑声及其背后的情感和语境。该数据集通过结合视频片段和文本表示,为研究者提供了一个丰富的资源,以探索笑声的多模态特征及其在不同情境下的表现。当前的研究热点包括通过GPT-3和LLaMA等先进模型进行零样本和少样本学习,以及在多模态数据上的微调实验,旨在提升模型对笑声的理解和推理能力。这些研究不仅推动了多模态数据分析技术的发展,也为情感计算和社交互动研究提供了新的视角和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录