five

SMILE Dataset|情感分析数据集|多模态学习数据集

收藏
github2024-03-31 更新2024-05-31 收录
情感分析
多模态学习
下载链接:
https://github.com/postech-ami/SMILE-Dataset
下载链接
链接失效反馈
资源简介:
[NAACL'24] Repository for "SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models"
创建时间:
2024-03-31
原始信息汇总

SMILE Dataset 概述

数据集版本

  • SMILE Dataset v.2: 当前正在更新,更新后将更新笑的推理基准。
  • SMILE Dataset v.1: 提供用于评估的版本。

数据集结构

  • SMILE Dataset v.2:

    ├── annotations | ├── data_split.json | ├── GT_laughter_reason.json | └── multimodal_textual_representation.json | └── videos └── SMILE_videos.zip ├── video_clips └── video_segments

    • data_split.json: 训练、验证、测试分割的关键索引。
    • GT_laughter_reason.json: 视频片段的Ground-Truth笑的原因。
    • multimodal_textual_representation.json: 从视频片段编码的多模态文本表示。
    • video_clips: 来自情景喜剧和TED的887个视频片段。
    • video_segments: 从视频片段中修剪的4482个视频段,按话语分割。
  • SMILE Dataset v.1 for evaluation:

    ├── SMILE_v1_evaluation ├── smile_reasoning_train.json ├── smile_reasoning_val.json ├── sitcom_reasoning_train.json ├── sitcom_reasoning_val.json ├── ted_reasoning_train.json └── ted_reasoning_val.json

评估

  • 笑的推理:
    • 提供使用GPT3和LLaMA的推理代码。
    • GPT3需要用户自己的openai api密钥,并收取运行模型的费用。
    • LLaMA提供预训练权重,仅供研究使用。

引用信息

@inproceedings{hyun-etal-2024-smile, title = "{SMILE}: Multimodal Dataset for Understanding Laughter in Video with Language Models", author = "Hyun, Lee and Sung-Bin, Kim and Han, Seungju and Yu, Youngjae and Oh, Tae-Hyun", booktitle = "Findings of the Association for Computational Linguistics: NAACL 2024", publisher = "Association for Computational Linguistics" }

AI搜集汇总
数据集介绍
main_image_url
构建方式
SMILE数据集的构建基于对视频片段的细致分析,特别是对情景喜剧和TED演讲中的笑声进行多模态文本表示的编码。数据集包括887个视频片段和4482个视频片段,这些片段通过话语进行修剪。数据集的构建过程涉及对视频内容的深度解析,生成包括数据分割、笑声原因标注以及多模态文本表示在内的多种标注文件。
特点
SMILE数据集的显著特点在于其多模态的文本表示,这种表示方法结合了视频和文本信息,为理解笑声提供了丰富的上下文。此外,数据集的构建考虑了不同视频类型的差异,如情景喜剧和TED演讲,这为研究提供了多样化的数据基础。数据集还提供了详细的评估工具和预训练模型,便于研究人员进行深入的实验和分析。
使用方法
使用SMILE数据集时,研究人员可以下载并解压数据集,其中包括视频片段和多种标注文件。数据集提供了详细的安装和评估指南,支持使用GPT3和LLaMA模型进行推理实验。研究人员可以通过提供的代码进行上下文和零样本实验,以及使用预训练的LLaMA模型进行微调实验。数据集的灵活性和详细的使用指南使其适用于多种研究场景。
背景与挑战
背景概述
SMILE数据集,全称为'SMILE: A Multimodal Dataset for Understanding Laughter with Language Models',是由Lee Hyun等研究人员在2024年NAACL会议上提出的。该数据集的核心研究问题在于通过多模态数据理解视频中的笑声,并利用语言模型进行分析。SMILE数据集的创建旨在填补多模态笑声理解领域的空白,其包含了从情景喜剧和TED演讲中提取的887个视频片段和4482个视频片段,这些数据被用于训练和验证多模态文本表示模型。该数据集的发布不仅推动了多模态数据处理技术的发展,也为笑声理解这一复杂情感分析领域提供了宝贵的资源。
当前挑战
SMILE数据集在构建过程中面临多项挑战。首先,多模态数据的整合与标注是一个复杂的过程,需要精确地从视频中提取笑声并进行语义标注。其次,数据集的多样性问题,即如何确保从不同类型的视频(如情景喜剧和TED演讲)中提取的数据能够代表广泛的文化和语言背景,是一个重要的挑战。此外,数据集的更新与维护也是一个持续的挑战,特别是在引入新的视频内容和更新标注时,如何保持数据的一致性和准确性。最后,利用该数据集进行模型训练时,如何有效地处理多模态数据的异质性,确保模型能够准确理解和推理笑声背后的情感和语境,也是当前研究中的一个重要课题。
常用场景
经典使用场景
在多模态语言模型的研究领域,SMILE数据集以其独特的笑声理解任务而著称。该数据集通过整合视频片段和文本表示,为研究人员提供了一个评估和训练模型理解笑声背后情感和语境的平台。经典的使用场景包括利用SMILE数据集进行笑声识别、情感分析以及多模态融合模型的训练,这些应用在提升人机交互的自然性和情感理解方面具有重要意义。
衍生相关工作
基于SMILE数据集,研究者们已经开展了一系列相关工作,包括但不限于笑声识别模型的优化、多模态情感分析算法的改进以及跨模态信息融合技术的探索。这些工作不仅在学术界引起了广泛关注,也在工业界得到了实际应用,推动了多模态技术的发展和应用。
数据集最近研究
最新研究方向
在多模态数据处理领域,SMILE数据集的最新研究方向主要集中在利用语言模型理解视频中的笑声及其背后的情感和语境。该数据集通过结合视频片段和文本表示,为研究者提供了一个丰富的资源,以探索笑声的多模态特征及其在不同情境下的表现。当前的研究热点包括通过GPT-3和LLaMA等先进模型进行零样本和少样本学习,以及在多模态数据上的微调实验,旨在提升模型对笑声的理解和推理能力。这些研究不仅推动了多模态数据分析技术的发展,也为情感计算和社交互动研究提供了新的视角和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录