IndoMER
收藏IndoMER 数据集概述
数据集简介
IndoMER 是首个用于印度尼西亚语多模态情感识别的综合性基准数据集。该数据集包含来自社交媒体的 1944 个时间对齐的视频片段,针对文本、音频和视觉模态的七种情感进行了细致的标注,并具有记录良好的长尾类别分布,以反映现实世界中的挑战。
数据集统计
- 源视频总数:207
- 视频片段总数:1,944
- 不同说话者总数:203
- 男性片段:778
- 女性片段:1,167
- 片段平均时长:5.37 秒
- 平均单词数:11.68 个单词
- 语速:2.17 单词/秒
- 词汇量(唯一单词):4,066
数据集主题分布
数据集涵盖十三个不同的主题,范围从个人生活分享到健康、政治等特定领域。这种广泛的主题选择旨在捕捉不同语境下丰富的情感细微差别。
数据集标注分布
展示了 IndoMER 数据集中情感和情感标注的分布。
- (a) 文本、音频和视觉模态的情感标签分布,与多模态共识(真实标签)进行比较。
- (b) 多模态标注内类别的详细细分,突出了自然情感交流的长尾特性。
数据集类别统计
7-类别情感
| 类别 | 训练集 | 验证集 |
|---|---|---|
| 愤怒 | 69 | 13 |
| 厌恶 | 33 | 5 |
| 恐惧 | 5 | 4 |
| 快乐 | 278 | 39 |
| 中性 | 1,054 | 262 |
| 悲伤 | 142 | 32 |
| 惊讶 | 7 | 1 |
3-类别情感
| 类别 | 训练集 | 验证集 |
|---|---|---|
| 消极 | 249 | 54 |
| 中性 | 1,054 | 262 |
| 积极 | 285 | 40 |
数据集构建
视频获取
数据集包含从社交媒体平台(如 YouTube 和 TikTok)收集的 207 个公开可用的个人独白视频。每个视频通过语音、音调和面部表情捕捉自然的多模态情感表达。为确保内容多样性并减少主题偏见,视频来源于 13 个广泛类别(例如,博主、书籍、名人、烹饪、家庭、健康、化妆、个人观点、温和政治、产品、分享、社会、教程)。所有视频仅包含一位主要说话者,并严格排除了涉及宗教、种族、暴力、歧视或任何有害、冒犯性或政治煽动性语言的内容,以确保标注清晰度和伦理合规性。所有视频均为公开,并经过筛选以尊重隐私和知识产权准则,最终数据集旨在代表多样化的情感和交流语境,同时避免不当或有害材料。
片段验证
数据集由 7 名印度尼西亚语母语者和 1 名语言专家进行标注,以确保语言和文化质量。视频按自然停顿进行分割,然后手动转录为地道的口语印度尼西亚语,不转换为正式语言。专家审查了转录文本,并注意了地区差异。情感标注采用 -1 到 1 的尺度(0 = 中性),并通过多数同意(≥2)最终确定,否则由专家使用多模态线索(语调 + 面部表情 + 上下文)决定。情感遵循 Ekman 的 7 类别标准(恐惧、厌恶、愤怒、悲伤、快乐、惊讶、中性),由 3 名标注者按 0-3 的强度等级进行评分,不一致时由专家裁决。最终发布版本包含 1,944 个经过筛选和伦理过滤的情感片段。
相关论文
解释该数据集的论文位于:https://arxiv.org/abs/2512.19379
仓库结构
INDOMER/ ├── 3_class/ │ ├── train.json # 包含 3 种情感类别(消极、中性、积极)的训练集划分 │ └── val.json # 包含 3 种情感类别的验证集划分 ├── 7_class/ │ ├── train.json # 包含 7 种情感类别的训练集划分 │ └── val.json # 包含 7 种情感类别的验证集划分 └── Annotations.csv # 片段级别的元数据、转录文本和标签
标注文件说明
Annotations.csv 文件列描述
| 列名 | 描述 |
|---|---|
| video_name | 视频剪辑名称,格式为 clip_number_topic_number.mp4,其中第一个数字表示完整视频的 ID(共 208 个),第二个数字表示该视频内剪辑的索引。 |
| audio_name | 音频文件遵循相同的命名约定,共享相同的 clip_number_topic_number 结构。 |
| emotion | 样本在整体/多模态层面的真实情感标注,属于七个预定义类别之一:ketakutan, jijik, kemarahan, kesedihan, netral, kebahagiaan, 或 surprise。 |
| sentiment | 样本在整体/多模态层面的真实情感标注,属于三个预定义类别之一:negatif, netral, 或 positif。 |
| text_sentiment | 仅文本模态的真实情感标注,仅源自样本的文本内容(例如转录文本),属于三个预定义类别之一:negatif, netral, 或 positif。 |
| audio_sentiment | 仅音频模态的真实情感标注,仅源自语音信号的声学和韵律特征,属于三个预定义类别之一:negatif, netral, 或 positif。 |
| video_sentiment | 仅视频模态的真实情感标注,仅源自样本的视觉信息(例如面部表情和手势),属于三个预定义类别之一:negatif, netral, 或 positif。 |
| text | 每个视频剪辑中口语内容的手动验证转录文本。 |
特征文件说明
特征 Pickle 文件
-
视频特征 PKL 文件
- 位置:
video_feature/train_video_features.pkl和val_video_features.pkl - 结构:每个 PKL 文件包含一个字典列表。每个字典对应一个视频片段,包含:
video_name:剪辑标识符(例如clip_1_Cooking_1.mp4)。video_feature:形状为 ((T_v, D_v)) 的 NumPy 数组,其中 (T_v) 是该剪辑的(填充/截断后的)视觉帧数(在一次预处理运行中固定,等于该次运行中所有剪辑的最大长度),(D_v) 是视觉特征维度(在 OpenFace 配置中为 673)。
- 位置:
-
音频特征 PKL 文件
- 位置:
audio_feature/train_audio_features.pkl和val_audio_features.pkl - 结构:每个 PKL 文件包含一个字典列表。每个字典对应一个音频片段,包含:
audio_name:剪辑标识符(例如clip_1_Cooking_1.wav)。audio_feature:形状为 ((T_a, D_a)) 的 NumPy 数组,其中 (T_a) 是该剪辑的(填充/截断后的)声学帧数(在一次预处理运行中固定,等于该次运行中所有剪辑的最大长度),(D_a) 是声学特征维度(18 维 GeMAPS LLDs)。
- 位置:
如何使用特征 PKL 文件
- 将特征与标签和文本对齐
- 对于大多数用例,建议使用划分的 JSON 文件(例如
7_class/train.json,7_class/val.json)作为标签和转录文本的主要来源。 - 对于音频特征,使用 PKL 中的
audio_name(例如clip_1_Cooking_1.wav)并直接与 JSON 文件中的audio字段匹配。 - 对于视频特征,使用 PKL 中的
video_name(例如clip_1_Cooking_1.mp4)并直接与 JSON 文件中的video字段匹配。 - 如果倾向于使用原始的
Annotations.csv,仍然可以通过video_name/audio_name列进行连接,这些列与 JSON 文件中的video/audio字段一致。
- 对于大多数用例,建议使用划分的 JSON 文件(例如
引用
如果在研究中使用此数据集,请引用以下论文: bibtex @misc{yan2025omnimerindonesianmultimodalemotion, title={OmniMER: Indonesian Multimodal Emotion Recognition via Auxiliary-Enhanced LLM Adaptation}, author={Xueming Yan and Boyan Xu and Yaochu Jin and others}, year={2025}, eprint={2512.19379}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2512.19379} }




