TEIDAN多模态多方对话语料库

Name: TEIDAN多模态多方对话语料库
Creator: 京都大学信息学研究科
Published: 2025-01-28 10:27:55
License: 暂无描述

arXiv2025-01-28 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.16643v1

下载链接

链接失效反馈

官方服务：

资源简介：

TEIDAN多模态多方对话语料库由京都大学信息学研究科创建，旨在支持多方对话系统的研究。该语料库包含30个三人自由讨论的会话，每个会话持续约5-10分钟，讨论主题包括日本替代首都、荒岛生存必需品以及周末旅行目的地。语料库的标注部分包含受话者信息，揭示了约20%的对话轮次中明确指定了受话者。该语料库的应用领域主要集中在多方对话系统的开发，特别是受话者识别任务，旨在解决多方对话中复杂的受话者识别问题。

The TEIDAN Multimodal Multi-Party Dialogue Corpus was developed by the Graduate School of Informatics at Kyoto University to support research on multi-party dialogue systems. This corpus comprises 30 free-form three-party discussion sessions, each lasting approximately 5 to 10 minutes, with topics covering alternative capitals for Japan, essential supplies for desert island survival, and weekend travel destinations. The annotated subset of the corpus includes addressee information, revealing that addressees are explicitly specified in roughly 20% of dialogue turns. The primary application scope of this corpus is the development of multi-party dialogue systems, particularly the addressee recognition task, aiming to address the complex addressee recognition challenges in multi-party dialogues.

提供机构：

京都大学信息学研究科

创建时间：

2025-01-28

搜集汇总

数据集介绍

构建方式

TEIDAN多模态多方对话语料库的构建，是以自发性的三方（三人参与者）对话为核心，通过录制真实讨论情境，收集了包含语音、视频等多种模态信息的数据集。语料库的构建首先对参与者的话语进行转写和标注，随后对特定会话中的说话人进行标注，并进一步标注出每个话语的明确指向对象，即谁是下一个说话人的预期接收者。这一过程结合了文本和视觉线索，如眼神行为，以确保数据的准确性和可靠性。

特点

该数据集的特点在于其自发性的多方对话记录，以及多模态的数据标注。它不仅包含了文本信息，还整合了视频中的眼神行为等非言语信息，为研究多模态多方对话提供了丰富的资源。此外，数据集中的对话场景多样，涉及不同的话题，能够反映现实交流中的复杂性和多变性。数据显示，仅有大约20%的对话轮次明确指出了预期接收者，这为理解和处理多方对话中的复杂性提出了挑战。

使用方法

使用TEIDAN多模态多方对话语料库时，研究人员可以依据其提供的详细标注信息，进行加地址者识别、下一说话人预测等任务的研究。数据集的多元模态特性使得研究者能够探索如何结合文本和视觉信息来提高对话系统的性能。此外，该数据集也可用于训练和评估大型语言模型在处理多方对话时的能力，从而推动对话系统的发展。

背景与挑战

背景概述

TEIDAN多模态多方对话语料库是一个专注于三方（三人参与）对话的自由讨论型数据集。该数据集由京都大学信息学研究科创建，旨在推动多方对话系统的研究，特别是关注于对话中参与者角色的动态变化和复杂的信息流。该数据集的核心研究问题是多方对话中的寻址识别，即识别出对话中下一个发言者的意图接收者，这对于多方对话系统的有效参与至关重要。TEIDAN语料库的构建填补了现有数据集的空白，并为相关领域的研究提供了新的资源和视角。

当前挑战

TEIDAN数据集在构建过程中面临的挑战主要包括：多方对话中寻址识别的复杂性，以及如何有效地结合文本和视觉线索进行标注。研究结果表明，即使是大型语言模型GPT-4o在寻址识别任务上也仅略高于随机水平，这突显了在理解多方对话动态方面，现有模型的能力还有待提升。此外，构建过程中对于如何准确捕捉和标注多方对话中的微妙社会信号，如眼神交流，也是一个重要的挑战。

常用场景

经典使用场景

TEIDAN多模态多方对话语料库作为专门针对多方对话系统的研究资源，其经典使用场景在于为多方对话中的地址识别任务提供基准数据。在该语料库的基础上，研究人员可以训练和评估大型语言模型在识别对话中下一说话人的能力，这对于提升对话系统的互动性和自然度至关重要。

实际应用

在实际应用中，TEIDAN语料库可以被用于开发更加智能的对话系统，这些系统能够在复杂的多方对话环境中准确地进行地址识别和发言预测，从而提升用户体验，例如在会议记录、在线聊天室和智能助理等场景中。

衍生相关工作

基于TEIDAN语料库的研究衍生出了诸如对话行为分类、发言预测等多方对话处理的相关工作。这些研究进一步推动了对话系统的多模态理解和交互能力，为构建更加智能和自然的对话系统打下了坚实的基础。

以上内容由遇见数据集搜集并总结生成