five

MTP

收藏
arXiv2024-09-23 更新2024-09-26 收录
下载链接:
https://giaabaoo.github.io/TPD_website/
下载链接
链接失效反馈
官方服务:
资源简介:
MTP数据集是由越南河内VinUniversity和澳大利亚墨尔本Monash大学共同创建的,专注于多模态转折点的数据集。该数据集基于《生活大爆炸》电视剧的40集对话内容,包含340个对话视频,总计13.3小时,涵盖12351个话语级别的视频和81909个单词的转录文本。数据集的创建过程包括场景边界标注、话语级别视频创建和多模态转折点标注,旨在捕捉对话中的情感、行为、视角和决策的显著变化。MTP数据集主要应用于心理学和社会科学领域,帮助识别和分析对话中的关键转折点,特别是在治疗和谈判等新环境中,有助于理解人类行为和互动的动态变化。

The MTP Dataset was jointly developed by VinUniversity in Hanoi, Vietnam and Monash University in Melbourne, Australia, and is dedicated to multimodal turning point research. This dataset is based on the dialogue content of 40 episodes of the TV series *The Big Bang Theory*, comprising 340 dialogue videos with a total duration of 13.3 hours, covering 12,351 utterance-level video segments and transcribed text containing 81,909 words. The creation of the dataset encompasses three main stages: scene boundary annotation, utterance-level video production, and multimodal turning point annotation, aiming to capture significant changes in emotions, behaviors, perspectives and decision-making within dialogues. The MTP Dataset is mainly applied in the fields of psychology and social sciences, helping to identify and analyze key turning points in dialogues, especially in scenarios such as therapy and negotiation, and contributing to the understanding of dynamic changes in human behavior and social interaction.
提供机构:
越南河内VinUniversity 和 澳大利亚墨尔本Monash大学
创建时间:
2024-09-23
原始信息汇总

MTP: A Dataset for Multi-Modal Turning Points in Casual Conversations

基本信息

  • 标题: MTP: A Dataset for Multi-Modal Turning Points in Casual Conversations
  • 会议: ACL 2024 (main)

作者

  • Gia-Bao Dinh Ho
  • Chang Wei Tan
  • Zahra Zamanzadeh Darban
  • Mahsa Salehi
  • Gholamreza Haffari
  • Wray Buntine

机构

  • Monash University
  • VinUniversity

资源链接

摘要

Detecting critical moments, such as emotional outbursts or changes in decisions during conversations, is crucial for understanding shifts in human behavior and interactions.

搜集汇总
数据集介绍
main_image_url
构建方式
MTP数据集的构建基于《The Big Bang Theory》电视系列剧的40集对话内容,涵盖了从第一季到第四季的精选片段。通过三阶段流程,首先由人工标注者确定场景的开始和结束时间,随后使用WhisperX工具将对话分割为具有精确时间戳的语句级视频。最后,由三位熟练的英语母语学生组成的团队进行多模态转折点标注,确保每个转折点都附有详细的文本和视觉证据。
特点
MTP数据集的显著特点在于其多模态性,结合了视频、文本和时间戳信息,提供了丰富的情感、行为和决策变化的数据。此外,数据集通过高一致性的人工标注,确保了转折点识别的准确性和可靠性。数据集还包含了详细的情感标注,使用环形情感模型来分类情感,增强了数据集在情感分析方面的应用潜力。
使用方法
MTP数据集适用于多模态转折点分类(MTPC)、多模态转折点检测(MTPD)和多模态转折点推理(MTPR)等任务。研究者可以利用数据集中的视频、文本和时间戳信息,结合视觉语言模型(VLMs)和大型语言模型(LLMs)进行模型训练和评估。数据集的开源性质也便于研究者进行进一步的实验和应用开发。
背景与挑战
背景概述
MTP数据集由VinUniversity和Monash University的研究团队于近年创建,专注于多模态对话中的转折点检测。该数据集的核心研究问题在于识别对话中的关键转折时刻,这些时刻通常伴随着情感爆发或决策变化,对理解人类行为及其后果至关重要。通过精心策划和人工标注,MTP数据集提供了精确的时间戳、描述以及视觉-文本证据,突显了这些转折点在情感、行为、视角和决策上的变化。该数据集的创建不仅填补了现有多模态数据集的空白,还为对话分析、情感识别和行为研究提供了新的视角和工具。
当前挑战
MTP数据集面临的挑战主要集中在两个方面。首先,转折点的检测需要复杂的推理能力,这在数据标注过程中尤为明显,即使是人类标注者也需要进行小组讨论以达成共识。其次,构建过程中遇到的挑战包括如何准确地从视频中提取视觉信息、如何确保文本和视觉数据的对齐,以及如何处理短序列中的上下文缺失问题。此外,评估转折点检测模型的性能也是一个挑战,特别是在没有明确评估方法的情况下,如何确保模型输出的文本解释与人类预期相符。
常用场景
经典使用场景
MTP数据集的经典使用场景主要集中在多模态对话中的转折点分类与检测。研究者利用该数据集训练模型,以识别和分类对话中的关键转折时刻,这些时刻通常伴随着情感爆发或决策变化。通过结合视觉和文本信息,模型能够更准确地捕捉对话中的细微变化,从而提升对人类行为和决策过程的理解。
解决学术问题
MTP数据集解决了多模态对话分析中的一个关键学术问题,即如何准确识别和分类对话中的转折点。这一问题的解决对于理解人类行为、情感变化和决策过程具有重要意义。通过提供精确的时间戳、描述和视觉-文本证据,该数据集为研究者提供了一个强大的工具,用于开发和评估能够捕捉对话中关键转折点的模型。
衍生相关工作
MTP数据集的发布催生了一系列相关研究工作,特别是在多模态对话分析和情感识别领域。例如,研究者们利用该数据集开发了新的模型和算法,用于更准确地检测和分类对话中的转折点。此外,该数据集还激发了对多模态情感推理和对话生成等领域的研究兴趣,推动了相关技术的进步和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作