iMiGUE-speech

github2026-02-26 更新2026-03-06 收录

下载链接：

https://github.com/skakouros/imigue-speech

下载链接

链接失效反馈

官方服务：

资源简介：

iMiGUE-speech数据集是iMiGUE数据集的扩展，提供了一个自发的英语情感语料库，用于研究情感和情感状态。新版本专注于语音，并通过多种元数据丰富了原始数据集，包括语音转录、采访者和受访者之间的说话者角色分离以及单词级强制对齐。数据集包含注释和自动生成的元数据。

The iMiGUE-speech dataset is an extension of the iMiGUE dataset, which provides a spontaneous English emotional corpus for research on emotions and affective states. This new version focuses on speech and enriches the original dataset with multiple types of metadata, including speech transcripts, speaker role separation between interviewers and interviewees, and word-level forced alignment. The dataset contains both manual annotations and automatically generated metadata.

创建时间：

2026-02-12

原始信息汇总

iMiGUE-speech 数据集概述

数据集基本信息

数据集名称：iMiGUE-speech: A Spontaneous Speech Dataset for Affective Analysis
简介：该数据集是iMiGUE数据集的扩展，提供了一个用于研究情绪和情感状态的自发性英语情感语料库。新版本侧重于语音，并通过多种元数据丰富了原始数据集，包括语音转录文本、采访者与被采访者之间的说话人角色分离以及词级强制对齐。
核心内容：包含采访录音的集合，按视频/采访ID组织。

数据规模与组织

采访数量：359个采访文件夹（每个录音一个文件夹）。
文件夹结构：每个文件夹以其对应的video_id命名，包含完整录音音频、转录文件以及说话人分段子文件夹。
根目录文件：包含一个名为labels.csv的标签文件，每个采访文件夹对应一行。

数据文件详情

标签文件 (`labels.csv`)

包含以下列：

video_id：采访录音的唯一标识符（与采访文件夹名称匹配）。
subject_gender：被采访者的性别（例如，M, F）。
subject_nationality：被采访者的国籍（国家名称文本）。
win_or_lose：与被采访者相关的结果标签（例如，Win, Lose）。

音频文件

格式：每个采访文件夹包含完整采访音频<video_id>.wav。
音频规格：WAV格式，16位有符号PCM，44.1 kHz采样率，单声道。

转录与标注文件

每个采访文件夹包含由自动语音识别（ASR）生成的转录文件：

<video_id>.raw.txt：非标准化ASR输出（带标点符号）。
<video_id>.asr.txt：标准化ASR输出。
<video_id>.txt：与采访相关的文本转录文件。
<video_id>.TextGrid：与录音相关的Praat TextGrid文件（通常用于时间对齐的分段/标注）。

说话人特定分段

每个采访文件夹包含两个子文件夹：

interviewee/：属于运动员（主要采访对象）的语音片段。
interviewer/：属于记者/采访者的语音片段。这些子文件夹包含相应的分段语音数据和转录文件。与完整录音转录类似，为说话人特定片段提供了标准化ASR输出（*.asr.txt）和带标点符号的非标准化ASR输出（*.raw.txt）。

生成的音频元数据/标注

使用多种工具生成，包括：

音频标准化：ffmpeg（提取音频；标准化格式）。
说话人日志：pyannote.audio（说话人标记的时间段）。
重叠检测：pyannote.audio（同时说话人的间隔）。
语音活动检测（VAD）：pyannote.audio（用于去除静音/背景噪声的语音区域）。
分段级ASR：Whisper Large（与语音片段对齐的英语转录）。
分段级TextGrid：Praat格式（统一层级：日志、重叠、VAD、转录）。
词级对齐：MFA（来自音频和Whisper转录的词边界）。
词级TextGrid：MFA输出（带有词和音素对齐的单独分层TextGrid）。
角色识别：启发式方法（最长的累计说话时间映射到运动员）。
说话人特定片段：自定义（不相交的运动员与记者音频片段集）。
分段索引：自定义（顺序ID，例如segment_001）。

使用与许可

访问方式：需联系Haoyu Chen (Chen.Haoyu@oulu.fi)（芬兰奥卢大学）签署许可协议以获得完整数据集的访问权限。

引用信息

相关论文：Kakouros, S., Kang, F., & Chen, H. (2026). iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis. Accepted for presentation in Speech Prosody 2026.
论文链接：https://arxiv.org/abs/2602.21464
引用格式：请使用提供的BibTeX条目进行引用。

关联数据集

完整的iMiGUE数据集（视频和音频）及其数据收集协议和微手势标注在以下论文中描述：

H Chen, X Liu, X Li, H Shi, G. Zhao. Analyze spontaneous gestures for emotional stress state recognition: A micro-gesture dataset and analysis with deep learning. IEEE 2019 14th IEEE International Conference on Automatic Face & Gesture (2019). 链接：https://ieeexplore.ieee.org/abstract/document/8756513?casa_token=ne96RIFDxLQAAAAA:nW-398Z2gyXh7UGyUf93fxD9z5IAIyJQDvuOs6BZQw6RTqeXBhIBP4tIZpL0nwugCMwPT9Knw3j3
H Chen, H Shi, X Liu, X Li, G. Zhao SMG: A Micro-gesture Dataset Towards Spontaneous Body Gestures for Emotional Stress State Analysis. International Journal of Comput Vision (2023). 链接：https://link.springer.com/article/10.1007/s11263-023-01761-6

搜集汇总

数据集介绍

构建方式

在情感计算与语音分析领域，iMiGUE-speech数据集通过系统化的多阶段流程构建而成。该数据集源自iMiGUE的扩展，专注于采集真实访谈场景中的自发语音。原始音频经过ffmpeg工具标准化为单声道16位PCM格式，采样率固定为44.1 kHz。随后利用pyannote.audio工具进行语音活动检测、说话人分离与重叠检测，确保语音片段的纯净性与角色区分。通过Whisper Large模型生成自动语音识别转录，并结合Montreal Forced Aligner实现词级强制对齐，最终形成包含说话人特定片段、时间对齐标注及多版本转录的结构化语料库。

使用方法

使用iMiGUE-speech数据集需遵循规范的访问流程。研究者首先需联系数据集负责人签署许可协议，获得授权后即可访问完整数据。数据集以分层文件夹形式组织，每个访谈对应独立目录，包含原始音频、多版本转录及说话人分割子文件夹。用户可基于labels.csv中的元数据进行样本筛选，如按比赛结果或说话人属性选择子集。对于情感分析任务，可结合音频特征与转录文本，利用预训练模型进行语音情感识别或文本情感分析。时间对齐标注支持细粒度的声学-语言关联研究，而说话人分离数据则便于角色特定的情感模式探索。

背景与挑战

背景概述

iMiGUE-speech数据集作为iMiGUE数据集的扩展，由芬兰奥卢大学的研究团队于2026年正式发布，旨在为情感与情感状态研究提供自发性语音语料库。该数据集聚焦于语音模态，通过整合语音转录、说话者角色分离及词级强制对齐等丰富元数据，深化了对运动员赛后采访中自发情感表达的分析。其核心研究问题在于探索如何从语音信号中有效识别与量化情感状态，为情感计算、语音情感识别及多模态情感分析领域提供了关键数据支持，推动了相关技术在真实场景中的应用进展。

当前挑战

在情感计算领域，从自发性语音中准确捕捉细微且复杂的情感状态仍面临显著挑战，包括情感标签的稀疏性、跨文化情感表达的差异性以及语音与文本模态间的对齐难题。数据构建过程中，团队需克服说话人分离的精度问题、背景噪声干扰以及大规模语音数据的自动标注一致性等障碍，这些因素共同制约了数据集的标注质量与模型泛化能力，对后续研究的可靠性与可复现性提出了更高要求。

常用场景

经典使用场景

在情感计算与语音分析领域，iMiGUE-speech数据集为研究自发语音中的情感状态提供了关键资源。该数据集通过采集运动员赛后采访的真实录音，结合精细的说话人分离、语音转录及词级对齐元数据，典型应用于语音情感识别任务。研究者可基于其标注的胜败结果标签及多模态语音特征，构建模型以识别说话者在自然对话中流露的喜悦、沮丧等细微情感变化，从而推动自发情感分析的算法发展。

解决学术问题

该数据集有效解决了情感计算研究中缺乏高质量自发语音语料的学术难题。传统情感语音数据集多基于表演性录制，难以捕捉真实场景下的情感细微差异。iMiGUE-speech通过提供自然访谈环境下的语音数据，并辅以说话人角色分离、词级对齐及多层级标注，使研究者能够深入探究语音信号与情感状态间的复杂关联，为跨模态情感分析、语音情感识别的模型泛化能力评估提供了可靠基准。

实际应用

在实际应用层面，iMiGUE-speech数据集为开发智能情感交互系统提供了重要支撑。例如，在心理健康监测领域，基于该数据训练的模型可分析访谈语音中的情感压力指标，辅助评估个体的情绪状态；在教育或客服场景中，系统可通过识别用户语音中的情感倾向，实现更人性化的交互反馈。此外，其精细的说话人分离与对齐数据也能助力语音合成、对话系统等技术的优化。

数据集最近研究