five

SMILE Dataset

收藏
github2024-03-31 更新2024-05-31 收录
下载链接:
https://github.com/postech-ami/SMILE-Dataset
下载链接
链接失效反馈
资源简介:
[NAACL'24] Repository for "SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models"

[NAACL'24(北美计算语言学协会2024年会)] 《SMILE:面向大语言模型(Large Language Model)的视频笑声理解多模态数据集》配套代码仓库
创建时间:
2024-03-31
原始信息汇总

SMILE Dataset 概述

数据集版本

  • SMILE Dataset v.2: 当前正在更新,更新后将更新笑的推理基准。
  • SMILE Dataset v.1: 提供用于评估的版本。

数据集结构

  • SMILE Dataset v.2:

    ├── annotations | ├── data_split.json | ├── GT_laughter_reason.json | └── multimodal_textual_representation.json | └── videos └── SMILE_videos.zip ├── video_clips └── video_segments

    • data_split.json: 训练、验证、测试分割的关键索引。
    • GT_laughter_reason.json: 视频片段的Ground-Truth笑的原因。
    • multimodal_textual_representation.json: 从视频片段编码的多模态文本表示。
    • video_clips: 来自情景喜剧和TED的887个视频片段。
    • video_segments: 从视频片段中修剪的4482个视频段,按话语分割。
  • SMILE Dataset v.1 for evaluation:

    ├── SMILE_v1_evaluation ├── smile_reasoning_train.json ├── smile_reasoning_val.json ├── sitcom_reasoning_train.json ├── sitcom_reasoning_val.json ├── ted_reasoning_train.json └── ted_reasoning_val.json

评估

  • 笑的推理:
    • 提供使用GPT3和LLaMA的推理代码。
    • GPT3需要用户自己的openai api密钥,并收取运行模型的费用。
    • LLaMA提供预训练权重,仅供研究使用。

引用信息

@inproceedings{hyun-etal-2024-smile, title = "{SMILE}: Multimodal Dataset for Understanding Laughter in Video with Language Models", author = "Hyun, Lee and Sung-Bin, Kim and Han, Seungju and Yu, Youngjae and Oh, Tae-Hyun", booktitle = "Findings of the Association for Computational Linguistics: NAACL 2024", publisher = "Association for Computational Linguistics" }

AI搜集汇总
数据集介绍
main_image_url
构建方式
SMILE数据集的构建基于对视频片段的细致分析,特别是对情景喜剧和TED演讲中的笑声进行多模态文本表示的编码。数据集包括887个视频片段和4482个视频片段,这些片段通过话语进行修剪。数据集的构建过程涉及对视频内容的深度解析,生成包括数据分割、笑声原因标注以及多模态文本表示在内的多种标注文件。
特点
SMILE数据集的显著特点在于其多模态的文本表示,这种表示方法结合了视频和文本信息,为理解笑声提供了丰富的上下文。此外,数据集的构建考虑了不同视频类型的差异,如情景喜剧和TED演讲,这为研究提供了多样化的数据基础。数据集还提供了详细的评估工具和预训练模型,便于研究人员进行深入的实验和分析。
使用方法
使用SMILE数据集时,研究人员可以下载并解压数据集,其中包括视频片段和多种标注文件。数据集提供了详细的安装和评估指南,支持使用GPT3和LLaMA模型进行推理实验。研究人员可以通过提供的代码进行上下文和零样本实验,以及使用预训练的LLaMA模型进行微调实验。数据集的灵活性和详细的使用指南使其适用于多种研究场景。
背景与挑战
背景概述
SMILE数据集,全称为'SMILE: A Multimodal Dataset for Understanding Laughter with Language Models',是由Lee Hyun等研究人员在2024年NAACL会议上提出的。该数据集的核心研究问题在于通过多模态数据理解视频中的笑声,并利用语言模型进行分析。SMILE数据集的创建旨在填补多模态笑声理解领域的空白,其包含了从情景喜剧和TED演讲中提取的887个视频片段和4482个视频片段,这些数据被用于训练和验证多模态文本表示模型。该数据集的发布不仅推动了多模态数据处理技术的发展,也为笑声理解这一复杂情感分析领域提供了宝贵的资源。
当前挑战
SMILE数据集在构建过程中面临多项挑战。首先,多模态数据的整合与标注是一个复杂的过程,需要精确地从视频中提取笑声并进行语义标注。其次,数据集的多样性问题,即如何确保从不同类型的视频(如情景喜剧和TED演讲)中提取的数据能够代表广泛的文化和语言背景,是一个重要的挑战。此外,数据集的更新与维护也是一个持续的挑战,特别是在引入新的视频内容和更新标注时,如何保持数据的一致性和准确性。最后,利用该数据集进行模型训练时,如何有效地处理多模态数据的异质性,确保模型能够准确理解和推理笑声背后的情感和语境,也是当前研究中的一个重要课题。
常用场景
经典使用场景
在多模态语言模型的研究领域,SMILE数据集以其独特的笑声理解任务而著称。该数据集通过整合视频片段和文本表示,为研究人员提供了一个评估和训练模型理解笑声背后情感和语境的平台。经典的使用场景包括利用SMILE数据集进行笑声识别、情感分析以及多模态融合模型的训练,这些应用在提升人机交互的自然性和情感理解方面具有重要意义。
衍生相关工作
基于SMILE数据集,研究者们已经开展了一系列相关工作,包括但不限于笑声识别模型的优化、多模态情感分析算法的改进以及跨模态信息融合技术的探索。这些工作不仅在学术界引起了广泛关注,也在工业界得到了实际应用,推动了多模态技术的发展和应用。
数据集最近研究
最新研究方向
在多模态数据处理领域,SMILE数据集的最新研究方向主要集中在利用语言模型理解视频中的笑声及其背后的情感和语境。该数据集通过结合视频片段和文本表示,为研究者提供了一个丰富的资源,以探索笑声的多模态特征及其在不同情境下的表现。当前的研究热点包括通过GPT-3和LLaMA等先进模型进行零样本和少样本学习,以及在多模态数据上的微调实验,旨在提升模型对笑声的理解和推理能力。这些研究不仅推动了多模态数据分析技术的发展,也为情感计算和社交互动研究提供了新的视角和工具。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作