iMiGUE-speech

github2026-03-04 更新2026-03-07 收录

下载链接：

https://github.com/CV-AC/imigue-speech

下载链接

链接失效反馈

官方服务：

资源简介：

iMiGUE-speech数据集是iMiGUE数据集的扩展，提供了一个用于研究情感和情感状态的自发情感语料库。新版本专注于语音，并通过多种元数据丰富了原始数据集，包括语音转录、采访者和被采访者之间的说话人角色分离以及词级强制对齐。数据集包含注释和自动生成的元数据。

The iMiGUE-speech dataset is an extension of the iMiGUE dataset, serving as a spontaneous emotional corpus for research on emotions and affective states. This extended version focuses on speech, and enriches the original dataset with various metadata, including speech transcripts, speaker role separation between interviewers and interviewees, and word-level forced alignment. The dataset contains both manual annotations and automatically generated metadata.

创建时间：

2026-02-24

原始信息汇总

iMiGUE-speech 数据集概述

数据集基本信息

数据集名称：iMiGUE-speech: A Spontaneous Speech Dataset for Affective Analysis
简介：该数据集是iMiGUE数据集的扩展，提供了一个用于研究情绪和情感状态的自发性英语情感语料库。新版本专注于语音，并通过多种元数据丰富了原始数据集，包括语音转录文本、采访者与被访者之间的说话人角色分离以及词级强制对齐。
核心内容：包含采访录音，按视频/采访ID组织。

数据规模与组织

采访数量：359个采访文件夹（每个文件夹对应一个录音）。
文件夹结构：每个文件夹以其对应的video_id命名。
示例文件夹结构：

./0440 ├── 0440.asr.txt ├── 0440.raw.txt ├── 0440.TextGrid ├── 0440.txt ├── 0440.wav ├── interviewee └── interviewer

数据文件详情

1. 标签文件 (`labels.csv`)

位置：数据集根目录。
格式：每行对应一个采访文件夹。
列说明：
- video_id：采访录音的唯一标识符（与采访文件夹名称匹配）。
- subject_gender：被访者性别（例如M， F）。
- subject_nationality：被访者国籍（国家名称文本）。
- win_or_lose：与被访者相关的结果标签（例如Win， Lose）。

2. 音频文件

文件：<video_id>.wav
格式：WAV格式（16位有符号PCM，44.1 kHz，单声道）。

3. 转录与标注文件

每个采访文件夹包含由自动语音识别（ASR）生成的转录文件：

<video_id>.raw.txt：非标准化的ASR输出（带标点）。
<video_id>.asr.txt：标准化的ASR输出。
<video_id>.txt：与采访相关的文本转录文件。
<video_id>.TextGrid：与录音相关的Praat TextGrid文件（通常用于时间对齐的分割/标注）。

4. 说话人特定片段

每个采访文件夹包含两个子文件夹，分别对应不同说话人角色：

interviewee/：属于运动员（主要采访对象）的语音片段。
interviewer/：属于记者/采访者的语音片段。
内容：包含相应的分段语音数据和转录文件。与完整录音转录类似，为说话人特定片段提供了标准化（*.asr.txt）和非标准化（*.raw.txt）的ASR输出。

生成的音频元数据/标注

下表概述了为iMiGUE-Speech生成的各种元数据和标注：

类型	工具	添加的元数据 / 输出
音频标准化	ffmpeg	提取音频；标准化格式（单通道PCM，固定采样率）。
说话人日志	`pyannote.audio`	说话人标记的时间段（例如`SPEAKER_00`）。
重叠检测	`pyannote.audio`	同时说话者的间隔。
语音活动检测（VAD）	`pyannote.audio`	用于去除静音/背景噪声的语音区域。
片段级ASR	Whisper Large	与语音片段对齐的英文转录文本。
片段级TextGrid	Praat格式	统一层级：说话人日志、重叠、VAD、转录文本。
词级对齐	MFA	来自音频和Whisper转录文本的词边界。
词级TextGrid	MFA输出	包含词和音素对齐的独立分层TextGrid。
角色识别	启发式方法	将累计说话时间最长的说话者映射为运动员。
说话人特定片段	自定义	运动员与记者的不相交音频片段集合。
片段索引	自定义	顺序ID（例如`segment_001`）。

使用与许可

访问方式：如需请求访问数据集，请联系Haoyu Chen（芬兰奥卢大学）签署许可协议。协议签署后，将获得完整数据集的访问权限。

引用信息

相关论文：Kakouros, S., Kang, F., & Chen, H. (2026). iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis. Accepted for presentation in Speech Prosody 2026.
引用格式：

@article{kakouros2026imiguespeechspontaneousspeechdataset, title={iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis}, author={Sofoklis Kakouros and Fang Kang and Haoyu Chen}, year={2026}, eprint={2602.21464}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2602.21464}, }

关联数据集

完整iMiGUE数据集：完整的iMiGUE数据集（视频和音频）及其数据收集协议和微手势标注在以下论文中描述：
- H Chen, X Liu, X Li, H Shi, G. Zhao Analyze spontaneous gestures for emotional stress state recognition: A micro-gesture dataset and analysis with deep learning. IEEE 2019 14th IEEE International Conference on Automatic Face & Gesture (2019).
- H Chen, H Shi, X Liu, X Li, G. Zhao SMG: A Micro-gesture Dataset Towards Spontaneous Body Gestures for Emotional Stress State Analysis. International Journal of Comput Vision (2023).

搜集汇总

数据集介绍

构建方式

iMiGUE-speech数据集的构建源于对自发情感分析的深入研究需求，通过扩展原始iMiGUE数据集，专注于语音模态的丰富与完善。构建过程采用系统化的技术流程，首先利用ffmpeg工具对原始访谈录音进行音频标准化处理，确保所有音频文件统一为16位PCM格式、44.1 kHz采样率的单声道WAV文件。随后，借助pyannote.audio工具包执行说话人日记化、重叠检测及语音活动检测，以精确分割不同说话者的语音段并消除静音干扰。在此基础上，使用Whisper Large模型自动生成语音转录文本，并通过Montreal Forced Aligner实现词级强制对齐，生成包含时间戳的TextGrid文件。最后，基于启发式规则将说话者角色映射为运动员与记者，并提取对应的独立音频片段，形成结构化的多模态语料库。

特点

该数据集的核心特点体现在其自发性和多模态注释的完整性上。所有语音数据均采集自真实体育访谈场景，反映了自然情境下的情感表达，避免了表演性情感的偏差。数据集提供了丰富的元数据，包括说话人角色分离、语音转录文本及词级时间对齐信息，其中说话人特定的语音段分别存储在interviewee和interviewer子文件夹中，便于针对不同角色进行独立分析。此外，数据集包含359个访谈录音，每个录音均配备标准化音频、多种转录版本（原始与规范化ASR输出）以及Praat TextGrid格式的详细时间标注，支持从声学与语言学双模态深入探究情感状态。这些特点使其成为情感计算、语音情感识别及多模态交互研究领域的宝贵资源。

使用方法

使用iMiGUE-speech数据集需遵循规范的访问流程，研究者首先需联系数据集负责人签署许可协议以获得完整数据访问权限。数据集以层次化文件夹结构组织，根目录下的labels.csv文件提供了每个访谈的视频ID、受访者性别、国籍及比赛结果等标签信息，可作为实验的基准标注。具体分析时，用户可依据研究目标灵活调用不同数据组件：例如，针对语音情感识别任务，可直接利用WAV音频文件及其对应的TextGrid时间标注进行特征提取；若进行文本情感分析，则可基于asr.txt或raw.txt转录文本开发语言模型。数据集中提供的说话人分离片段进一步支持角色特定的情感对比研究，而词级对齐信息则适用于细粒度的语音-文本关联分析。为确保研究的可重复性，使用时应引用相关论文，并遵循数据许可协议中的条款。

背景与挑战

背景概述

在情感计算与多模态交互研究领域，自发情感语料的获取与分析一直是核心议题。iMiGUE-speech数据集作为iMiGUE数据集的语音扩展，由芬兰奥卢大学的研究团队于2026年正式发布，主要贡献者包括Sofoklis Kakouros、Fang Kang和Haoyu Chen等人。该数据集聚焦于自然访谈场景中的英语自发语音，旨在探究情感与情感状态的识别与分析。其核心研究问题在于如何从真实、非受控的语音信号中有效提取情感特征，并融合多模态元数据以提升情感分析的鲁棒性。通过提供详尽的语音转录、说话人角色分离及词级强制对齐等丰富标注，该数据集为语音情感识别和基于文本的情感分析任务建立了重要基准，显著推动了自发情感计算领域的发展。

当前挑战

iMiGUE-speech数据集致力于解决自发语音情感分析中的关键挑战，即如何在自然、非脚本化的访谈环境中准确捕捉并量化情感状态。这一领域问题的挑战体现在情感表达的细微性、跨说话人差异性以及语境依赖性，使得模型难以从嘈杂、多变的语音信号中稳定提取情感特征。在数据集构建过程中，研究团队面临多重技术挑战，包括高精度说话人日记与重叠检测以区分采访者与被访者角色、自动语音识别在自发对话中的转录准确性保障，以及词级对齐过程中语音与文本的时序同步问题。此外，数据采集涉及真实体育访谈场景，需在保护隐私与伦理的前提下确保语料的自然性与代表性，进一步增加了构建复杂度。

常用场景

经典使用场景

在情感计算与语音分析领域，iMiGUE-speech数据集为研究自发情感状态提供了宝贵的资源。该数据集通过采集运动员赛后采访的真实语音，结合精细的说话人分离、语音转录及词级对齐元数据，常用于构建语音情感识别模型。研究者利用其丰富的标注信息，能够深入探索语音信号中蕴含的情感特征，特别是在非受控环境下自发情感的细微变化，为情感分析任务提供了高度真实的实验基础。

解决学术问题

该数据集有效解决了情感计算研究中自发情感数据稀缺的学术难题。传统情感数据集多基于表演性语音，缺乏真实场景下的情感表达，而iMiGUE-speech通过真实采访情境，提供了自然状态下的情感样本。它支持多模态情感分析，包括语音情感识别和基于转录文本的情感分析，有助于推动自发情感建模、跨模态情感融合以及情感状态与言语内容关联性等前沿问题的研究，提升了情感识别模型的泛化能力与实用性。

衍生相关工作

围绕iMiGUE-speech数据集，已衍生出多项经典研究工作。原始iMiGUE数据集专注于微手势与情感压力状态分析，而本扩展版本则引入了语音模态，促进了多模态情感计算的交叉研究。相关研究利用该数据集构建了语音情感识别基准模型，并探索了基于Whisper等预训练表示的转录文本情感分析方法。这些工作不仅验证了数据集在捕捉自发情感方面的有效性，也为后续研究提供了可复现的实验框架，推动了情感计算领域向更真实、细粒度方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集