IndoMER

Name: IndoMER
Creator: 广东外语外贸大学信息科学与技术学院, 广东工业大学计算机学院, 西湖大学工程学院, 岭南师范学院计算机科学与智能教育学院
Published: 2025-12-22 21:23:55
License: 暂无描述

arXiv2025-12-22 更新2025-12-24 收录

下载链接：

https://github.com/yanxm01/INDOMER

下载链接

链接失效反馈

官方服务：

资源简介：

IndoMER是由广东外语外贸大学等机构联合构建的首个印尼语多模态情感识别基准数据集，包含1944个来自社交媒体的视频片段，覆盖七种基础情感类别。数据集通过严格筛选203位说话者的207个原始视频，经人工分割后对齐文本、音频和视觉模态，并采用多人标注与专家仲裁机制确保标注质量。其特色在于捕捉印尼文化特有的跨模态不一致性和长尾分布现象，为低资源语言的情感计算研究提供重要数据支撑。该数据集适用于多模态融合算法开发、跨文化情感分析及小样本学习等研究领域。

IndoMER is the first benchmark dataset for Indonesian multimodal emotion recognition, jointly constructed by Guangdong University of Foreign Studies and other collaborating institutions. It contains 1944 video clips sourced from social media platforms, covering seven basic emotion categories. The dataset is developed by strictly screening 207 original videos from 203 speakers, followed by manual segmentation and subsequent alignment of its text, audio, and visual modalities. A multi-annotator labeling framework paired with expert arbitration is utilized to ensure annotation quality. Notably, it captures cross-modal inconsistency and long-tailed distribution characteristics unique to Indonesian cultural contexts, providing critical data support for emotion computing research on low-resource languages. This dataset is applicable to research fields including multimodal fusion algorithm development, cross-cultural emotion analysis, and few-shot learning.

提供机构：

广东外语外贸大学信息科学与技术学院, 广东工业大学计算机学院, 西湖大学工程学院, 岭南师范学院计算机科学与智能教育学院

创建时间：

2025-12-22

原始信息汇总

IndoMER 数据集概述

数据集简介

IndoMER 是首个用于印度尼西亚语多模态情感识别的综合性基准数据集。该数据集包含来自社交媒体的 1944 个时间对齐的视频片段，针对文本、音频和视觉模态的七种情感进行了细致的标注，并具有记录良好的长尾类别分布，以反映现实世界中的挑战。

数据集统计

源视频总数：207
视频片段总数：1,944
不同说话者总数：203
- 男性片段：778
- 女性片段：1,167
片段平均时长：5.37 秒
平均单词数：11.68 个单词
语速：2.17 单词/秒
词汇量（唯一单词）：4,066

数据集主题分布

数据集涵盖十三个不同的主题，范围从个人生活分享到健康、政治等特定领域。这种广泛的主题选择旨在捕捉不同语境下丰富的情感细微差别。

数据集标注分布

展示了 IndoMER 数据集中情感和情感标注的分布。

(a) 文本、音频和视觉模态的情感标签分布，与多模态共识（真实标签）进行比较。
(b) 多模态标注内类别的详细细分，突出了自然情感交流的长尾特性。

数据集类别统计

7-类别情感

类别	训练集	验证集
愤怒	69	13
厌恶	33	5
恐惧	5	4
快乐	278	39
中性	1,054	262
悲伤	142	32
惊讶	7	1

3-类别情感

类别	训练集	验证集
消极	249	54
中性	1,054	262
积极	285	40

数据集构建

视频获取

数据集包含从社交媒体平台（如 YouTube 和 TikTok）收集的 207 个公开可用的个人独白视频。每个视频通过语音、音调和面部表情捕捉自然的多模态情感表达。为确保内容多样性并减少主题偏见，视频来源于 13 个广泛类别（例如，博主、书籍、名人、烹饪、家庭、健康、化妆、个人观点、温和政治、产品、分享、社会、教程）。所有视频仅包含一位主要说话者，并严格排除了涉及宗教、种族、暴力、歧视或任何有害、冒犯性或政治煽动性语言的内容，以确保标注清晰度和伦理合规性。所有视频均为公开，并经过筛选以尊重隐私和知识产权准则，最终数据集旨在代表多样化的情感和交流语境，同时避免不当或有害材料。

片段验证

数据集由 7 名印度尼西亚语母语者和 1 名语言专家进行标注，以确保语言和文化质量。视频按自然停顿进行分割，然后手动转录为地道的口语印度尼西亚语，不转换为正式语言。专家审查了转录文本，并注意了地区差异。情感标注采用 -1 到 1 的尺度（0 = 中性），并通过多数同意（≥2）最终确定，否则由专家使用多模态线索（语调 + 面部表情 + 上下文）决定。情感遵循 Ekman 的 7 类别标准（恐惧、厌恶、愤怒、悲伤、快乐、惊讶、中性），由 3 名标注者按 0-3 的强度等级进行评分，不一致时由专家裁决。最终发布版本包含 1,944 个经过筛选和伦理过滤的情感片段。

仓库结构

INDOMER/ ├── 3_class/ │ ├── train.json # 包含 3 种情感类别（消极、中性、积极）的训练集划分 │ └── val.json # 包含 3 种情感类别的验证集划分 ├── 7_class/ │ ├── train.json # 包含 7 种情感类别的训练集划分 │ └── val.json # 包含 7 种情感类别的验证集划分 └── Annotations.csv # 片段级别的元数据、转录文本和标签

标注文件说明

Annotations.csv 文件列描述

列名	描述
video_name	视频剪辑名称，格式为 clip_number_topic_number.mp4，其中第一个数字表示完整视频的 ID（共 208 个），第二个数字表示该视频内剪辑的索引。
audio_name	音频文件遵循相同的命名约定，共享相同的 clip_number_topic_number 结构。
emotion	样本在整体/多模态层面的真实情感标注，属于七个预定义类别之一：ketakutan, jijik, kemarahan, kesedihan, netral, kebahagiaan, 或 surprise。
sentiment	样本在整体/多模态层面的真实情感标注，属于三个预定义类别之一：negatif, netral, 或 positif。
text_sentiment	仅文本模态的真实情感标注，仅源自样本的文本内容（例如转录文本），属于三个预定义类别之一：negatif, netral, 或 positif。
audio_sentiment	仅音频模态的真实情感标注，仅源自语音信号的声学和韵律特征，属于三个预定义类别之一：negatif, netral, 或 positif。
video_sentiment	仅视频模态的真实情感标注，仅源自样本的视觉信息（例如面部表情和手势），属于三个预定义类别之一：negatif, netral, 或 positif。
text	每个视频剪辑中口语内容的手动验证转录文本。

特征文件说明

特征 Pickle 文件

视频特征 PKL 文件
- 位置：video_feature/train_video_features.pkl 和 val_video_features.pkl
- 结构：每个 PKL 文件包含一个字典列表。每个字典对应一个视频片段，包含：
  - video_name：剪辑标识符（例如 clip_1_Cooking_1.mp4）。
  - video_feature：形状为 ((T_v, D_v)) 的 NumPy 数组，其中 (T_v) 是该剪辑的（填充/截断后的）视觉帧数（在一次预处理运行中固定，等于该次运行中所有剪辑的最大长度），(D_v) 是视觉特征维度（在 OpenFace 配置中为 673）。
音频特征 PKL 文件
- 位置：audio_feature/train_audio_features.pkl 和 val_audio_features.pkl
- 结构：每个 PKL 文件包含一个字典列表。每个字典对应一个音频片段，包含：
  - audio_name：剪辑标识符（例如 clip_1_Cooking_1.wav）。
  - audio_feature：形状为 ((T_a, D_a)) 的 NumPy 数组，其中 (T_a) 是该剪辑的（填充/截断后的）声学帧数（在一次预处理运行中固定，等于该次运行中所有剪辑的最大长度），(D_a) 是声学特征维度（18 维 GeMAPS LLDs）。

如何使用特征 PKL 文件

将特征与标签和文本对齐
- 对于大多数用例，建议使用划分的 JSON 文件（例如 7_class/train.json, 7_class/val.json）作为标签和转录文本的主要来源。
- 对于音频特征，使用 PKL 中的 audio_name（例如 clip_1_Cooking_1.wav）并直接与 JSON 文件中的 audio 字段匹配。
- 对于视频特征，使用 PKL 中的 video_name（例如 clip_1_Cooking_1.mp4）并直接与 JSON 文件中的 video 字段匹配。
- 如果倾向于使用原始的 Annotations.csv，仍然可以通过 video_name / audio_name 列进行连接，这些列与 JSON 文件中的 video / audio 字段一致。

引用

如果在研究中使用此数据集，请引用以下论文： bibtex @misc{yan2025omnimerindonesianmultimodalemotion, title={OmniMER: Indonesian Multimodal Emotion Recognition via Auxiliary-Enhanced LLM Adaptation}, author={Xueming Yan and Boyan Xu and Yaochu Jin and others}, year={2025}, eprint={2512.19379}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2512.19379} }

搜集汇总

数据集介绍

构建方式

在情感计算领域，多模态数据融合已成为理解人类复杂情感表达的关键路径。IndoMER作为首个印度尼西亚语多模态情感识别基准数据集，其构建过程体现了严谨的学术规范与文化敏感性。研究团队从YouTube和TikTok等社交媒体平台系统性地采集了207个原始单人独白视频，覆盖博客、家庭、健康、观点分享等13个主题领域，确保内容多样性与现实代表性。通过七位印尼语母语者与一位语言学专家的协同标注，视频被依据语义边界切割为1,944个片段，每个片段均获得时间对齐的文本转录、音频与视觉标注。标注过程采用两阶段协议：首先由五位标注者独立进行从-1到+1的情感极性标注，并通过多数投票与专家仲裁确定最终标签；随后基于埃克曼六类基本情绪加中性共七类情感，采用李克特量表进行强度评分，并通过累计得分与专家裁决解决歧义，最终形成包含203位说话者、具有高标注一致性的多模态情感数据集。

特点

该数据集深刻反映了低资源语言环境下多模态情感识别的核心挑战。其首要特征在于模态间不一致性：受印尼文化中社会和谐与礼貌规范的影响，文本常呈现中性表达，而语音韵律与面部表情却可能传递更强烈的情感信号，这种跨模态冲突要求模型具备解耦与融合矛盾信息的能力。其次，数据集呈现出显著的长尾分布特征：快乐与中性情感占据主导，而恐惧、厌恶等类别样本稀少，这种不平衡性源于自然交际中的情感表达规律，对模型处理少数类别的鲁棒性提出更高要求。此外，数据集规模相对有限，仅包含1,944个对齐样本，在避免过拟合与学习虚假相关性方面构成天然挑战，为开发数据高效的学习算法提供了真实测试场景。

使用方法

为促进多模态情感识别研究，IndoMER提供了灵活的使用范式。研究者可直接利用原始的视频、音频及文本数据，或使用其预提取的特征向量：文本模态采用IndoBERT生成768维词向量，音频模态通过OpenSMILE提取18维低层描述符，视觉模态则使用OpenFace获取包含面部动作单元与姿态的673维特征。数据集支持两种主要任务：粗粒度的三分类情感分析（消极、中性、积极）与细粒度的七分类情感识别。配套提出的OmniMER框架展示了先进的使用方法：基于Qwen2.5-Omni全模态大语言模型，通过文本情感关键词提取、视觉面部表情分析与音频韵律分析三项辅助任务增强单模态情感表征，再采用多阶段或混合训练策略进行多模态融合，有效提升了在跨模态冲突与类别不平衡条件下的模型性能。该框架在CH-SIMS数据集上的跨语言验证进一步证明了其方法的普适性。

背景与挑战

背景概述

多模态情感识别作为情感计算的核心领域，其发展高度依赖于高质量标注数据。然而，现有研究长期集中于英语等资源丰富语言，导致全球使用人数超过两亿、在东南亚社交媒体占据主导地位的印度尼西亚语严重缺乏相应基准。在此背景下，由广东外语外贸大学、广东工业大学、西湖大学等机构研究人员组成的团队于2025年创建了IndoMER数据集。该数据集作为首个面向印度尼西亚语的多模态情感识别基准，旨在填补该语言在情感计算领域的空白，其核心研究问题聚焦于如何在低资源、跨文化语境下实现鲁棒的多模态情感理解。IndoMER的建立不仅为开发适用于印尼文化的情绪感知系统提供了关键资源，也为在真实低资源场景下的跨语言评估与迁移学习研究开辟了新路径。

当前挑战

IndoMER数据集致力于解决多模态情感识别领域在低资源语言上面临的核心挑战。在领域问题层面，主要挑战体现为跨模态不一致性与长尾类别分布。印尼文化中强调社会和谐与礼貌的沟通规范，常导致文本表达含蓄中性，而情感线索更强烈地体现在语音韵律或面部表情中，这种模态间信号冲突对模型学习一致的情感表征构成严峻考验。同时，自然情感交流中中性、快乐等表达占据主导，恐惧、厌恶等类别则极为稀少，这种不平衡分布易使标准训练过程偏向多数类，并放大模型对虚假相关性的依赖。在数据集构建过程中，挑战源于在确保文化真实性与数据质量的前提下，从自然社交媒体视频中采集、对齐并标注多模态数据。这涉及处理口语化文本的准确转录、应对因文化差异导致的标注歧义，以及在有限标注资源下建立可靠的跨模态情感共识。

常用场景

经典使用场景

在情感计算领域，多模态情感识别研究长期受限于高质量标注数据的稀缺性，尤其对于非英语语言而言。IndoMER作为首个印尼语多模态情感识别基准数据集，其最经典的使用场景在于为低资源语言环境下的多模态情感分析模型提供训练与评估平台。该数据集包含1,944个视频片段，涵盖文本、音频和视觉三种模态的时序对齐标注，涉及七种基本情感类别。研究者可利用IndoMER开发能够处理跨模态不一致性和长尾类别分布的新型融合算法，特别适用于模拟印尼文化中因社交和谐规范导致的间接情感表达场景。

解决学术问题

IndoMER致力于解决多模态情感识别研究中的若干关键学术问题。首要贡献在于填补了印尼语作为全球第四大语言在多模态情感数据方面的空白，缓解了该领域长期存在的英语中心主义偏差。数据集天然呈现的跨模态不一致性挑战了传统融合方法对模态间一致性的假设，促使学界探索更鲁棒的冲突信号处理机制。其长尾类别分布则反映了真实世界情感交流的不均衡性，为研究类别不平衡下的模型泛化能力提供了实证基础。这些特性共同推动了对低资源场景下模型如何避免虚假相关、学习稳健多模态表示的理论探索。

衍生相关工作

围绕IndoMER数据集，研究者提出了OmniMER这一创新性多模态适应框架，成为该数据集衍生的标志性工作。OmniMER基于Qwen2.5-Omni全模态大语言模型，通过引入文本情感关键词提取、视频面部表情分析和音频韵律分析三项辅助感知任务，强化了融合前的单模态情感表征。该框架采用的多阶段与混合优化策略，为低资源多模态学习提供了新的范式。后续研究可在此基础上探索更细粒度的辅助任务设计、跨语言迁移机制的深化，以及针对其他东南亚语言的多模态情感基准构建，形成以IndoMER为起点的低资源情感计算研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集