SMILE Dataset|情感分析数据集|多模态学习数据集

github2024-03-31 更新2024-05-31 收录

情感分析

多模态学习

下载链接：

https://github.com/postech-ami/SMILE-Dataset

下载链接

链接失效反馈

资源简介：

[NAACL'24] Repository for "SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models"

创建时间：

2024-03-31

原始信息汇总

SMILE Dataset 概述

数据集版本

SMILE Dataset v.2: 当前正在更新，更新后将更新笑的推理基准。
SMILE Dataset v.1: 提供用于评估的版本。

数据集结构

SMILE Dataset v.2:

├── annotations | ├── data_split.json | ├── GT_laughter_reason.json | └── multimodal_textual_representation.json | └── videos └── SMILE_videos.zip ├── video_clips └── video_segments
- data_split.json: 训练、验证、测试分割的关键索引。
- GT_laughter_reason.json: 视频片段的Ground-Truth笑的原因。
- multimodal_textual_representation.json: 从视频片段编码的多模态文本表示。
- video_clips: 来自情景喜剧和TED的887个视频片段。
- video_segments: 从视频片段中修剪的4482个视频段，按话语分割。
SMILE Dataset v.1 for evaluation:

├── SMILE_v1_evaluation ├── smile_reasoning_train.json ├── smile_reasoning_val.json ├── sitcom_reasoning_train.json ├── sitcom_reasoning_val.json ├── ted_reasoning_train.json └── ted_reasoning_val.json

评估

笑的推理:
- 提供使用GPT3和LLaMA的推理代码。
- GPT3需要用户自己的openai api密钥，并收取运行模型的费用。
- LLaMA提供预训练权重，仅供研究使用。

引用信息

@inproceedings{hyun-etal-2024-smile, title = "{SMILE}: Multimodal Dataset for Understanding Laughter in Video with Language Models", author = "Hyun, Lee and Sung-Bin, Kim and Han, Seungju and Yu, Youngjae and Oh, Tae-Hyun", booktitle = "Findings of the Association for Computational Linguistics: NAACL 2024", publisher = "Association for Computational Linguistics" }

AI搜集汇总

数据集介绍

构建方式

SMILE数据集的构建基于对视频片段的细致分析，特别是对情景喜剧和TED演讲中的笑声进行多模态文本表示的编码。数据集包括887个视频片段和4482个视频片段，这些片段通过话语进行修剪。数据集的构建过程涉及对视频内容的深度解析，生成包括数据分割、笑声原因标注以及多模态文本表示在内的多种标注文件。

特点

SMILE数据集的显著特点在于其多模态的文本表示，这种表示方法结合了视频和文本信息，为理解笑声提供了丰富的上下文。此外，数据集的构建考虑了不同视频类型的差异，如情景喜剧和TED演讲，这为研究提供了多样化的数据基础。数据集还提供了详细的评估工具和预训练模型，便于研究人员进行深入的实验和分析。

使用方法

使用SMILE数据集时，研究人员可以下载并解压数据集，其中包括视频片段和多种标注文件。数据集提供了详细的安装和评估指南，支持使用GPT3和LLaMA模型进行推理实验。研究人员可以通过提供的代码进行上下文和零样本实验，以及使用预训练的LLaMA模型进行微调实验。数据集的灵活性和详细的使用指南使其适用于多种研究场景。

背景与挑战

背景概述

SMILE数据集，全称为'SMILE: A Multimodal Dataset for Understanding Laughter with Language Models'，是由Lee Hyun等研究人员在2024年NAACL会议上提出的。该数据集的核心研究问题在于通过多模态数据理解视频中的笑声，并利用语言模型进行分析。SMILE数据集的创建旨在填补多模态笑声理解领域的空白，其包含了从情景喜剧和TED演讲中提取的887个视频片段和4482个视频片段，这些数据被用于训练和验证多模态文本表示模型。该数据集的发布不仅推动了多模态数据处理技术的发展，也为笑声理解这一复杂情感分析领域提供了宝贵的资源。

当前挑战

SMILE数据集在构建过程中面临多项挑战。首先，多模态数据的整合与标注是一个复杂的过程，需要精确地从视频中提取笑声并进行语义标注。其次，数据集的多样性问题，即如何确保从不同类型的视频（如情景喜剧和TED演讲）中提取的数据能够代表广泛的文化和语言背景，是一个重要的挑战。此外，数据集的更新与维护也是一个持续的挑战，特别是在引入新的视频内容和更新标注时，如何保持数据的一致性和准确性。最后，利用该数据集进行模型训练时，如何有效地处理多模态数据的异质性，确保模型能够准确理解和推理笑声背后的情感和语境，也是当前研究中的一个重要课题。

常用场景

经典使用场景

在多模态语言模型的研究领域，SMILE数据集以其独特的笑声理解任务而著称。该数据集通过整合视频片段和文本表示，为研究人员提供了一个评估和训练模型理解笑声背后情感和语境的平台。经典的使用场景包括利用SMILE数据集进行笑声识别、情感分析以及多模态融合模型的训练，这些应用在提升人机交互的自然性和情感理解方面具有重要意义。

衍生相关工作

基于SMILE数据集，研究者们已经开展了一系列相关工作，包括但不限于笑声识别模型的优化、多模态情感分析算法的改进以及跨模态信息融合技术的探索。这些工作不仅在学术界引起了广泛关注，也在工业界得到了实际应用，推动了多模态技术的发展和应用。

数据集最近研究

最新研究方向

在多模态数据处理领域，SMILE数据集的最新研究方向主要集中在利用语言模型理解视频中的笑声及其背后的情感和语境。该数据集通过结合视频片段和文本表示，为研究者提供了一个丰富的资源，以探索笑声的多模态特征及其在不同情境下的表现。当前的研究热点包括通过GPT-3和LLaMA等先进模型进行零样本和少样本学习，以及在多模态数据上的微调实验，旨在提升模型对笑声的理解和推理能力。这些研究不仅推动了多模态数据分析技术的发展，也为情感计算和社交互动研究提供了新的视角和工具。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ReferCOCO数据集

ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集，用于视觉定位任务。数据集包含图像和对应的描述性文本，用于训练和测试模型识别图像中特定对象的能力。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

RFUAV

RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集，包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题，提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别，有助于推动相关技术的研究与应用。

arXiv 收录

CMNEE（Chinese Military News Event Extraction dataset）

CMNEE（Chinese Military News Event Extraction dataset）是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件，所有事件均基于预定义的军事领域模式人工标注，包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略，首先通过权威网站获取军事新闻文本并预处理，然后依据触发词字典进行预标注，经领域专家审核后形成事件模式。随后，通过人工分批、迭代标注并持续修正，直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集，对推动相关研究具有显著意义。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录