IndoMER DATASET
收藏IndoMER 数据集概述
数据集简介
IndoMER 是首个用于印度尼西亚语多模态情感识别的综合性基准数据集。该数据集包含来自社交媒体的 1944 个时间对齐的视频片段,在文本、音频和视觉模态上对七种情感进行了精细标注,并具有记录完善的长尾类别分布,以反映现实世界中的挑战。
数据集统计信息
- 总源视频数:207
- 总视频片段数:1,944
- 总不同说话者数:203
- 男性片段数:778
- 女性片段数:1,167
- 平均片段时长:5.37 秒
- 平均词数:11.68 词
- 语速:2.17 词/秒
- 词汇量(唯一词数):4,066
数据集主题分布
数据集涵盖十三个不同的主题,范围从个人生活分享到健康、政治等特定领域。这种广泛的主题选择旨在捕捉不同语境下丰富的情感细微差别。
数据集标注分布
展示了 IndoMER 数据集中情感和情感标注的分布情况。
- (a) 文本、音频和视觉模态的情感标签分布,并与多模态共识(真实标签)进行比较。
- (b) 多模态标注中类别的详细细分,突显了自然情感交流的长尾特性。
数据集类别统计
7 类别情感
| 类别 | 训练集样本数 | 验证集样本数 |
|---|---|---|
| Anger | 69 | 13 |
| Disgust | 33 | 5 |
| Fear | 5 | 4 |
| Happiness | 278 | 39 |
| Neutral | 1,054 | 262 |
| Sadness | 142 | 32 |
| Surprise | 7 | 1 |
3 类别情感
| 类别 | 训练集样本数 | 验证集样本数 |
|---|---|---|
| Negative | 249 | 54 |
| Neutral | 1,054 | 262 |
| Positive | 285 | 40 |
数据集构建
视频获取
- 数据集包含从社交媒体平台(如 YouTube 和 TikTok)收集的 207 个公开可用的个人独白视频。
- 每个视频通过语音、声调和面部表情捕捉自然的多模态情感表达。
- 为确保内容多样性并减少主题偏见,视频来源涵盖 13 个广泛类别(如博主、书籍、名人、烹饪、家庭、健康、化妆、个人观点、温和政治、产品、分享、社会、教程)。
- 所有视频仅包含一个主要说话者,并严格排除了涉及宗教、种族、暴力、歧视或任何有害、冒犯性或政治煽动性语言的内容。
- 所有视频均为公开,并遵循隐私和知识产权准则进行选择。
片段验证与标注
- 数据集由 7 名印度尼西亚语母语者和 1 名语言专家进行标注,以确保语言和文化质量。
- 视频按自然停顿进行分割,然后手动转录为地道的口语印度尼西亚语,未转换为正式语言。
- 专家审查了转录文本,并关注了地区差异。
- 情感标注采用 -1 到 1 的尺度(0 表示中性),通过多数同意(≥2)最终确定,否则由专家根据多模态线索(语调+面部表情+上下文)决定。
- 情感标注遵循 Ekman 的 7 类别标准(恐惧、厌恶、愤怒、悲伤、快乐、惊讶、中性),由 3 名标注者在 0-3 的强度尺度上进行评分,不一致时由专家裁决。
- 最终发布版本包含 1,944 个经过筛选和伦理过滤的情感片段。
相关论文
详细描述该数据集的论文地址:https://arxiv.org/abs/2512.19379
仓库结构
INDOMER/ ├── 3_class/ │ ├── train.json # 包含 3 类情感(负面、中性、正面)的训练集划分 │ └── val.json # 包含 3 类情感(负面、中性、正面)的验证集划分 ├── 7_class/ │ ├── train.json # 包含 7 类情感的训练集划分 │ └── val.json # 包含 7 类情感的验证集划分 └── Annotations.csv # 片段级别的元数据、转录文本和标签
Annotations.csv 文件描述
| 列名 | 描述 |
|---|---|
| video_name | 视频剪辑名称,格式为 clip_number_topic_number.mp4。第一个数字表示完整视频的 ID(共 208 个),第二个数字表示该视频内剪辑的索引。 |
| audio_name | 音频文件遵循相同的命名约定,共享相同的 clip_number_topic_number 结构。 |
| emotion | 样本在整体/多模态层面的真实情感标注,属于七个预定义类别之一:ketakutan, jijik, kemarahan, kesedihan, netral, kebahagiaan, 或 surprise。 |
| sentiment | 样本在整体/多模态层面的真实情感标注,属于三个预定义类别之一:negatif, netral, 或 positif。 |
| text_sentiment | 仅文本模态的真实情感标注,仅源自样本的文本内容(如转录文本),属于三个预定义类别之一:negatif, netral, 或 positif。 |
| audio_sentiment | 仅音频模态的真实情感标注,仅源自语音信号的声学和韵律特征,属于三个预定义类别之一:negatif, netral, 或 positif。 |
| video_sentiment | 仅视频模态的真实情感标注,仅源自样本的视觉信息(如面部表情和手势),属于三个预定义类别之一:negatif, netral, 或 positif。 |
| text | 每个视频剪辑中口语内容的手动验证转录文本。 |
特征 Pickle 文件描述
视频特征 PKL 文件
- 位置:
video_feature/train_video_features.pkl和val_video_features.pkl - 结构:每个 PKL 文件包含一个字典列表。每个字典对应一个视频片段,包含:
video_name:剪辑标识符(例如clip_1_Cooking_1.mp4)。video_feature:形状为 ((T_v, D_v)) 的 NumPy 数组,其中 (T_v) 是该剪辑的(填充/截断后)视觉帧数,(D_v) 是视觉特征维度(在 OpenFace 配置中为 673)。
音频特征 PKL 文件
- 位置:
audio_feature/train_audio_features.pkl和val_audio_features.pkl - 结构:每个 PKL 文件包含一个字典列表。每个字典对应一个音频片段,包含:
audio_name:剪辑标识符(例如clip_1_Cooking_1.wav)。audio_feature:形状为 ((T_a, D_a)) 的 NumPy 数组,其中 (T_a) 是该剪辑的(填充/截断后)声学帧数,(D_a) 是声学特征维度(18 维 GeMAPS LLDs)。
特征与标签对齐方法
- 建议使用划分好的 JSON 文件(例如
7_class/train.json,7_class/val.json)作为标签和转录文本的主要来源。 - 对于音频特征,使用 PKL 中的
audio_name(例如clip_1_Cooking_1.wav)并直接与 JSON 文件中的audio字段匹配。 - 对于视频特征,使用 PKL 中的
video_name(例如clip_1_Cooking_1.mp4)并直接与 JSON 文件中的video字段匹配。 - 如果倾向于使用原始的
Annotations.csv,仍然可以通过video_name/audio_name列进行关联,这些列与 JSON 文件中的video/audio字段一致。
引用
如果本数据集对您的研究有帮助,请引用以下论文: bibtex @misc{yan2025omnimerindonesianmultimodalemotion, title={OmniMER: Indonesian Multimodal Emotion Recognition via Auxiliary-Enhanced LLM Adaptation}, author={Xueming Yan and Boyan Xu and Yaochu Jin and others}, year={2025}, eprint={2512.19379}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2512.19379} }




