iMiGUE-speech
收藏iMiGUE-speech 数据集概述
数据集基本信息
- 数据集名称:iMiGUE-speech: A Spontaneous Speech Dataset for Affective Analysis
- 简介:该数据集是iMiGUE数据集的扩展,提供了一个用于研究情绪和情感状态的自发性英语情感语料库。新版本专注于语音,并通过多种元数据丰富了原始数据集,包括语音转录文本、采访者与被访者之间的说话人角色分离以及词级强制对齐。
- 核心内容:包含采访录音,按视频/采访ID组织。
数据规模与组织
-
采访数量:359个采访文件夹(每个文件夹对应一个录音)。
-
文件夹结构:每个文件夹以其对应的
video_id命名。 -
示例文件夹结构:
./0440 ├── 0440.asr.txt ├── 0440.raw.txt ├── 0440.TextGrid ├── 0440.txt ├── 0440.wav ├── interviewee └── interviewer
数据文件详情
1. 标签文件 (labels.csv)
- 位置:数据集根目录。
- 格式:每行对应一个采访文件夹。
- 列说明:
video_id:采访录音的唯一标识符(与采访文件夹名称匹配)。subject_gender:被访者性别(例如M,F)。subject_nationality:被访者国籍(国家名称文本)。win_or_lose:与被访者相关的结果标签(例如Win,Lose)。
2. 音频文件
- 文件:
<video_id>.wav - 格式:WAV格式(16位有符号PCM,44.1 kHz,单声道)。
3. 转录与标注文件
每个采访文件夹包含由自动语音识别(ASR)生成的转录文件:
<video_id>.raw.txt:非标准化的ASR输出(带标点)。<video_id>.asr.txt:标准化的ASR输出。<video_id>.txt:与采访相关的文本转录文件。<video_id>.TextGrid:与录音相关的Praat TextGrid文件(通常用于时间对齐的分割/标注)。
4. 说话人特定片段
每个采访文件夹包含两个子文件夹,分别对应不同说话人角色:
interviewee/:属于运动员(主要采访对象)的语音片段。interviewer/:属于记者/采访者的语音片段。- 内容:包含相应的分段语音数据和转录文件。与完整录音转录类似,为说话人特定片段提供了标准化(
*.asr.txt)和非标准化(*.raw.txt)的ASR输出。
生成的音频元数据/标注
下表概述了为iMiGUE-Speech生成的各种元数据和标注:
| 类型 | 工具 | 添加的元数据 / 输出 |
|---|---|---|
| 音频标准化 | ffmpeg | 提取音频;标准化格式(单通道PCM,固定采样率)。 |
| 说话人日志 | pyannote.audio |
说话人标记的时间段(例如SPEAKER_00)。 |
| 重叠检测 | pyannote.audio |
同时说话者的间隔。 |
| 语音活动检测(VAD) | pyannote.audio |
用于去除静音/背景噪声的语音区域。 |
| 片段级ASR | Whisper Large | 与语音片段对齐的英文转录文本。 |
| 片段级TextGrid | Praat格式 | 统一层级:说话人日志、重叠、VAD、转录文本。 |
| 词级对齐 | MFA | 来自音频和Whisper转录文本的词边界。 |
| 词级TextGrid | MFA输出 | 包含词和音素对齐的独立分层TextGrid。 |
| 角色识别 | 启发式方法 | 将累计说话时间最长的说话者映射为运动员。 |
| 说话人特定片段 | 自定义 | 运动员与记者的不相交音频片段集合。 |
| 片段索引 | 自定义 | 顺序ID(例如segment_001)。 |
使用与许可
- 访问方式:如需请求访问数据集,请联系Haoyu Chen(芬兰奥卢大学)签署许可协议。协议签署后,将获得完整数据集的访问权限。
引用信息
-
相关论文:Kakouros, S., Kang, F., & Chen, H. (2026). iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis. Accepted for presentation in Speech Prosody 2026.
-
引用格式:
@article{kakouros2026imiguespeechspontaneousspeechdataset, title={iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis}, author={Sofoklis Kakouros and Fang Kang and Haoyu Chen}, year={2026}, eprint={2602.21464}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2602.21464}, }
关联数据集
- 完整iMiGUE数据集:完整的iMiGUE数据集(视频和音频)及其数据收集协议和微手势标注在以下论文中描述:
- H Chen, X Liu, X Li, H Shi, G. Zhao Analyze spontaneous gestures for emotional stress state recognition: A micro-gesture dataset and analysis with deep learning. IEEE 2019 14th IEEE International Conference on Automatic Face & Gesture (2019).
- H Chen, H Shi, X Liu, X Li, G. Zhao SMG: A Micro-gesture Dataset Towards Spontaneous Body Gestures for Emotional Stress State Analysis. International Journal of Comput Vision (2023).



