Look, Listen and Recognise

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/JaesungHuh/look-listen-recognise

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了一个角色列表，每个剧集的角色名称与对应的演员或女演员名称并列。如果演员或女演员的名称不可用，则会列为未知。CSV文件中包含每个剧集的开始时间、结束时间、说话者和转录文本。开始时间和结束时间以秒为单位。为了评估说话者分割性能，我们还把CSV文件转换为RTTM格式。此外，我们还提供了用于实验的音频文件。

We provide a list of characters, with the name of each character in every episode paired with the corresponding actor or actress. If the name of the actor or actress is unavailable, it is listed as unknown. The CSV file includes the start time, end time, speaker, and transcribed text for each episode. The start and end times are measured in seconds. To evaluate the performance of speaker segmentation, we have also converted the CSV file into RTTM format. Additionally, we have provided audio files for experimental purposes.

创建时间：

2024-05-22

原始信息汇总

数据集概述

数据集名称

Look, Listen and Recognise : character-aware audio-visual subtitling (ICASSP 2024)

数据集内容

Castlist
- 提供每集的演员表，包含角色名和对应演员名，如演员名未知则标记为unknown。
CSV文件
- 包含每集的开始时间、结束时间、说话者和转录文本。时间以秒为单位。
RTTM格式
- 将CSV文件转换为RTTM格式，用于评估说话者分割性能。
音频和视频文件
- 提供音频和视频文件，音频文件链接为此处，视频文件链接为此处。

数据集引用

@article{korbar2023look, author = {Korbar, Bruno and Huh, Jaesung and Zisserman, Andrew}, title = {Look, Listen and Recognise: character-aware audio-visual subtitling}, booktitle = {ICASSP}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

在构建Look, Listen and Recognise数据集时，研究团队精心设计了多模态数据的整合方式。首先，通过收集视频和音频文件，确保数据的原始性和完整性。随后，对每一集的内容进行细致的标注，包括角色的起始和结束时间、说话者身份以及对应的台词文本。此外，为了便于评估说话者分割性能，数据集还提供了转换为RTTM格式的文件。这种多层次的标注和格式转换，确保了数据集在音频-视觉字幕生成任务中的适用性和可靠性。

使用方法

使用Look, Listen and Recognise数据集时，研究者首先需要获取视频和音频文件，这些文件可以通过联系数据集维护者获取。随后，可以利用提供的CSV文件进行台词和说话者信息的提取与分析。对于需要进行说话者分割评估的研究，RTTM格式的文件提供了便捷的接口。此外，数据集还提供了角色列表，帮助研究者更好地理解视频内容和角色关系。通过这些多层次的数据和标注，研究者可以在音频-视觉字幕生成和说话者分割任务中进行深入的研究和实验。

背景与挑战

背景概述

Look, Listen and Recognise数据集由Bruno Korbar、Jaesung Huh和Andrew Zisserman于2024年创建，旨在解决音频-视觉字幕生成中的角色识别问题。该数据集的核心研究问题是如何在视频和音频数据中准确识别和标注角色，从而提高字幕生成的准确性和效率。该数据集的发布对音频-视觉处理领域具有重要影响，特别是在角色识别和字幕生成技术的研究中，为研究人员提供了一个标准化的评估平台。

当前挑战

该数据集在构建过程中面临的主要挑战包括：1) 角色与演员信息的准确匹配，特别是在演员信息缺失的情况下；2) 音频和视频数据的时间同步问题，确保字幕的时间戳准确无误；3) 数据标注的一致性和准确性，特别是在初始版本中发现了一些标注错误，需要进行修正。此外，数据集的评估标准和格式转换（如RTTM格式）也为研究人员带来了一定的技术挑战。

常用场景

经典使用场景

在多媒体内容分析领域，Look, Listen and Recognise数据集被广泛用于音频与视觉信息的联合处理任务。该数据集通过提供视频片段及其对应的音频和字幕信息，使得研究者能够探索音频与视觉信号在人物识别和字幕生成中的协同作用。经典的使用场景包括但不限于：通过分析音频特征与视觉特征的匹配度，实现对视频中人物身份的自动识别；以及利用音频与视觉信息的融合，提升字幕生成的准确性与实时性。

解决学术问题

Look, Listen and Recognise数据集在解决多媒体内容分析中的多个学术问题上具有重要意义。首先，它为研究者提供了一个标准化的数据平台，用于验证和比较不同的音频与视觉融合算法。其次，该数据集通过提供精确的时间戳和字幕信息，有助于解决音频与视觉信息同步问题，从而推动了多模态信息处理技术的发展。此外，数据集中的角色与演员信息也为人物识别和身份验证研究提供了宝贵的资源。

实际应用

在实际应用中，Look, Listen and Recognise数据集的应用场景广泛且多样。例如，在影视制作领域，该数据集可用于自动生成字幕，提高字幕制作的效率和准确性。在安全监控领域，数据集的音频与视觉信息融合技术可用于实时识别和跟踪特定人物，增强监控系统的智能化水平。此外，该数据集还可应用于教育、医疗等多个领域，通过多模态信息的融合，提供更加精准和全面的服务。

数据集最近研究