IndoMER DATASET

github2025-12-23 更新2025-12-24 收录

下载链接：

https://github.com/yanxm01/INDOMER

下载链接

链接失效反馈

官方服务：

资源简介：

IndoMER DATASET是第一个全面的印尼多模态情感识别基准数据集。该数据集包含1944个时间对齐的社交媒体视频片段，经过精心标注，涵盖文本、音频和视觉模态的七种情感，并具有详细记录的长尾类别分布，以反映现实世界的挑战。

The IndoMER Dataset is the first comprehensive benchmark dataset for Indonesian multimodal emotion recognition. This dataset contains 1,944 temporally aligned social media video clips, which are meticulously annotated, covering seven emotion categories across text, audio, and visual modalities, and features a well-documented long-tailed class distribution to reflect real-world challenges.

创建时间：

2025-11-28

原始信息汇总

IndoMER 数据集概述

数据集简介

IndoMER 是首个用于印度尼西亚语多模态情感识别的综合性基准数据集。该数据集包含来自社交媒体的 1944 个时间对齐的视频片段，在文本、音频和视觉模态上对七种情感进行了精细标注，并具有记录完善的长尾类别分布，以反映现实世界中的挑战。

数据集统计信息

总源视频数：207
总视频片段数：1,944
总不同说话者数：203
- 男性片段数：778
- 女性片段数：1,167
平均片段时长：5.37 秒
平均词数：11.68 词
语速：2.17 词/秒
词汇量（唯一词数）：4,066

数据集主题分布

数据集涵盖十三个不同的主题，范围从个人生活分享到健康、政治等特定领域。这种广泛的主题选择旨在捕捉不同语境下丰富的情感细微差别。

数据集标注分布

展示了 IndoMER 数据集中情感和情感标注的分布情况。

(a) 文本、音频和视觉模态的情感标签分布，并与多模态共识（真实标签）进行比较。
(b) 多模态标注中类别的详细细分，突显了自然情感交流的长尾特性。

数据集类别统计

7 类别情感

类别	训练集样本数	验证集样本数
Anger	69	13
Disgust	33	5
Fear	5	4
Happiness	278	39
Neutral	1,054	262
Sadness	142	32
Surprise	7	1

3 类别情感

类别	训练集样本数	验证集样本数
Negative	249	54
Neutral	1,054	262
Positive	285	40

数据集构建

视频获取

数据集包含从社交媒体平台（如 YouTube 和 TikTok）收集的 207 个公开可用的个人独白视频。
每个视频通过语音、声调和面部表情捕捉自然的多模态情感表达。
为确保内容多样性并减少主题偏见，视频来源涵盖 13 个广泛类别（如博主、书籍、名人、烹饪、家庭、健康、化妆、个人观点、温和政治、产品、分享、社会、教程）。
所有视频仅包含一个主要说话者，并严格排除了涉及宗教、种族、暴力、歧视或任何有害、冒犯性或政治煽动性语言的内容。
所有视频均为公开，并遵循隐私和知识产权准则进行选择。

片段验证与标注

数据集由 7 名印度尼西亚语母语者和 1 名语言专家进行标注，以确保语言和文化质量。
视频按自然停顿进行分割，然后手动转录为地道的口语印度尼西亚语，未转换为正式语言。
专家审查了转录文本，并关注了地区差异。
情感标注采用 -1 到 1 的尺度（0 表示中性），通过多数同意（≥2）最终确定，否则由专家根据多模态线索（语调+面部表情+上下文）决定。
情感标注遵循 Ekman 的 7 类别标准（恐惧、厌恶、愤怒、悲伤、快乐、惊讶、中性），由 3 名标注者在 0-3 的强度尺度上进行评分，不一致时由专家裁决。
最终发布版本包含 1,944 个经过筛选和伦理过滤的情感片段。

仓库结构

INDOMER/ ├── 3_class/ │ ├── train.json # 包含 3 类情感（负面、中性、正面）的训练集划分 │ └── val.json # 包含 3 类情感（负面、中性、正面）的验证集划分 ├── 7_class/ │ ├── train.json # 包含 7 类情感的训练集划分 │ └── val.json # 包含 7 类情感的验证集划分 └── Annotations.csv # 片段级别的元数据、转录文本和标签

Annotations.csv 文件描述

列名	描述
video_name	视频剪辑名称，格式为 clip_number_topic_number.mp4。第一个数字表示完整视频的 ID（共 208 个），第二个数字表示该视频内剪辑的索引。
audio_name	音频文件遵循相同的命名约定，共享相同的 clip_number_topic_number 结构。
emotion	样本在整体/多模态层面的真实情感标注，属于七个预定义类别之一：ketakutan, jijik, kemarahan, kesedihan, netral, kebahagiaan, 或 surprise。
sentiment	样本在整体/多模态层面的真实情感标注，属于三个预定义类别之一：negatif, netral, 或 positif。
text_sentiment	仅文本模态的真实情感标注，仅源自样本的文本内容（如转录文本），属于三个预定义类别之一：negatif, netral, 或 positif。
audio_sentiment	仅音频模态的真实情感标注，仅源自语音信号的声学和韵律特征，属于三个预定义类别之一：negatif, netral, 或 positif。
video_sentiment	仅视频模态的真实情感标注，仅源自样本的视觉信息（如面部表情和手势），属于三个预定义类别之一：negatif, netral, 或 positif。
text	每个视频剪辑中口语内容的手动验证转录文本。

特征 Pickle 文件描述

视频特征 PKL 文件

位置：video_feature/train_video_features.pkl 和 val_video_features.pkl
结构：每个 PKL 文件包含一个字典列表。每个字典对应一个视频片段，包含：
- video_name：剪辑标识符（例如 clip_1_Cooking_1.mp4）。
- video_feature：形状为 ((T_v, D_v)) 的 NumPy 数组，其中 (T_v) 是该剪辑的（填充/截断后）视觉帧数，(D_v) 是视觉特征维度（在 OpenFace 配置中为 673）。

音频特征 PKL 文件

位置：audio_feature/train_audio_features.pkl 和 val_audio_features.pkl
结构：每个 PKL 文件包含一个字典列表。每个字典对应一个音频片段，包含：
- audio_name：剪辑标识符（例如 clip_1_Cooking_1.wav）。
- audio_feature：形状为 ((T_a, D_a)) 的 NumPy 数组，其中 (T_a) 是该剪辑的（填充/截断后）声学帧数，(D_a) 是声学特征维度（18 维 GeMAPS LLDs）。

特征与标签对齐方法

建议使用划分好的 JSON 文件（例如 7_class/train.json, 7_class/val.json）作为标签和转录文本的主要来源。
对于音频特征，使用 PKL 中的 audio_name（例如 clip_1_Cooking_1.wav）并直接与 JSON 文件中的 audio 字段匹配。
对于视频特征，使用 PKL 中的 video_name（例如 clip_1_Cooking_1.mp4）并直接与 JSON 文件中的 video 字段匹配。
如果倾向于使用原始的 Annotations.csv，仍然可以通过 video_name / audio_name 列进行关联，这些列与 JSON 文件中的 video / audio 字段一致。

引用

如果本数据集对您的研究有帮助，请引用以下论文： bibtex @misc{yan2025omnimerindonesianmultimodalemotion, title={OmniMER: Indonesian Multimodal Emotion Recognition via Auxiliary-Enhanced LLM Adaptation}, author={Xueming Yan and Boyan Xu and Yaochu Jin and others}, year={2025}, eprint={2512.19379}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2512.19379} }

搜集汇总

数据集介绍

构建方式

在印尼语多模态情感识别领域，构建高质量数据集需兼顾语言特性与文化背景。IndoMER数据集通过系统化流程采集了207个来自社交媒体平台的公开单人独白视频，覆盖博客、健康、政治等13个主题类别，确保内容多样性并规避敏感议题。视频依据自然停顿切分为1944个片段，由七位印尼母语者与一位语言专家进行人工转录与标注，情感标签基于埃克曼七类情绪框架，并采用-1至1的情感强度标度。标注结果通过多数表决与专家仲裁相结合的方式确定，最终形成时间对齐的多模态情感标注数据。

使用方法

研究者可通过数据集提供的结构化文件便捷开展多模态情感分析实验。核心标注信息存储于Annotations.csv文件，其中包含视频名称、音频名称、多模态情感标签、各模态独立情感标签及转写文本。数据集已按7类情绪与3类情感极性划分训练集与验证集，分别存放于7_class与3_class目录的JSON文件中。同时，预提取的视觉与音频特征以PKL格式提供，可通过视频或音频名称与标注文件关联。用户可加载JSON文件获取标签与文本，并配合特征文件进行端到端的多模态融合模型训练与评估。

背景与挑战

背景概述

在情感计算与多模态人工智能研究蓬勃发展的背景下，针对特定语言与文化背景的资源匮乏问题日益凸显。IndoMER数据集应运而生，作为首个面向印度尼西亚语的多模态情感识别综合性基准数据集，由Xueming Yan、Boyan Xu、Yaochu Jin等研究人员于2025年创建。该数据集旨在解决印尼语自然场景下，融合文本、音频与视觉信息的情感状态识别这一核心研究问题。通过从社交媒体平台精心采集并标注1,944个时序对齐的视频片段，涵盖七种基本情感与十三类多样化主题，IndoMER不仅填补了印尼语多模态情感数据的空白，也为探索文化特异性情感表达与跨模态融合机制提供了关键资源，有力推动了包容性人工智能系统的发展。

当前挑战

IndoMER数据集致力于应对多模态情感识别领域的核心挑战，即如何准确理解并融合来自不同模态的、可能不一致的情感信号，以达成对复杂人类情感的鲁棒识别。具体而言，该领域面临情感标注的主观性、跨模态信息对齐与融合的复杂性，以及长尾分布下少数类别识别困难等科学问题。在数据集构建过程中，挑战同样显著：为确保数据的真实性与文化代表性，需从社交媒体中筛选并处理自然口语表达，同时严格规避伦理风险内容；在标注环节，协调多位母语标注者达成共识、处理印尼语方言变体，以及依据多模态线索裁决不一致标注，均对流程设计与质量控制提出了极高要求。

常用场景

经典使用场景

在情感计算与多模态人工智能研究领域，IndoMER数据集作为首个针对印度尼西亚语的多模态情感识别基准数据集，其经典使用场景集中于跨模态情感表征学习与融合模型的开发与评估。研究者可借助该数据集提供的文本、音频和视觉模态的时序对齐标注，系统探索不同模态间的情感表达一致性及互补性，进而设计先进的融合架构以提升情感分类的准确性与鲁棒性。

解决学术问题

该数据集有效解决了多模态情感识别研究中长期存在的语言与文化多样性不足的学术问题。通过提供真实社交媒体场景下的印尼语多模态数据，并涵盖十三种主题与长尾情感分布，它为研究自然情境下的情感表达、跨文化情感差异以及数据不平衡下的模型泛化能力提供了关键实证基础，推动了情感计算向更包容、更实用的方向发展。

实际应用

在实际应用层面，IndoMER数据集为开发适应印尼本土需求的智能人机交互系统提供了核心训练资源。基于该数据集训练的模型可广泛应用于社交媒体内容情感分析、客户服务情感监测、在线教育情感反馈以及心理健康辅助评估等领域，助力构建更自然、更具文化敏感性的情感感知人工智能应用。

数据集最近研究