CH-SIMS v2.0

Name: CH-SIMS v2.0
Creator: 清华大学智能技术与系统国家重点实验室
Published: 2022-08-22 11:31:33
License: 暂无描述

arXiv2022-08-22 更新2024-06-21 收录

下载链接：

https://github.com/thuiar/ch-sims-v2.0

下载链接

链接失效反馈

官方服务：

资源简介：

CH-SIMS v2.0是由清华大学智能技术与系统国家重点实验室创建的大型半监督中文多模态情感分析数据集，包含4402个带有单模态标注的监督数据和超过10000个无标签的非监督数据。该数据集通过从11种不同场景中收集视频片段，模拟真实世界的人机交互场景，旨在通过丰富的声学和视觉情感承载上下文，强调非言语线索对情感预测的重要性。数据集的创建过程包括视频采集、片段裁剪和高质量实例筛选，以及使用标准进行精细的情感标注。CH-SIMS v2.0的应用领域主要集中在探索声学和视觉线索的有效性，以及为可解释的端到端人机交互应用铺平道路，解决文本主导现象，提升多模态情感分析的性能。

CH-SIMS v2.0 is a large-scale semi-supervised Chinese multimodal sentiment analysis dataset developed by the State Key Laboratory of Intelligent Technology and Systems at Tsinghua University. It contains 4,402 supervised samples with unimodal annotations and over 10,000 unlabeled unsupervised samples. This dataset collects video clips from 11 distinct scenarios to simulate real-world human-computer interaction scenarios, aiming to emphasize the critical role of non-verbal cues in sentiment prediction by providing rich acoustic and visual emotional contexts. The construction pipeline of CH-SIMS v2.0 includes video acquisition, clip cropping, high-quality instance screening, and fine-grained sentiment annotation following standardized protocols. The primary application scenarios of CH-SIMS v2.0 focus on investigating the effectiveness of acoustic and visual cues, paving the way for explainable end-to-end human-computer interaction applications, addressing the text-dominant issue, and enhancing the performance of multimodal sentiment analysis.

提供机构：

清华大学智能技术与系统国家重点实验室

创建时间：

2022-08-22

搜集汇总

数据集介绍

构建方式

CH-SIMS v2.0数据集是在CH-SIMS的基础上进行的扩展和增强。为了丰富非言语情感表达的语境，数据集从11个不同场景中收集了4402个带标签的监督数据，其中包括单模态和多模态标注，以及10161个未标记的原始视频片段，这些片段包含了丰富的声学和视觉情感表达语境。数据集的视频分辨率为720p以上，涵盖了现代电视剧、访谈、谈话节目、Vlog、电影、古装剧、综艺节目等多种场景，模拟了复杂的真实世界情境。

特点

CH-SIMS v2.0数据集的主要特点包括：1）规模大，包含4402个监督数据和10161个未标记数据；2）场景多样，涵盖了多种真实世界情境；3）非言语行为丰富，有助于缓解文本主导的现象；4）标注精细，包括单模态和多模态标注；5）提供了未标记的原始视频片段，可用于半监督学习。

使用方法

CH-SIMS v2.0数据集的使用方法如下：1）下载数据集，地址为https://github.com/thuiar/ch-sims-v2；2）使用MMSA-FET工具包提取特征；3）选择合适的模型进行训练，可以使用多任务晚融合神经网络进行监督学习和半监督学习；4）评估模型性能，可以使用二元分类准确率、F1分数、弱情感准确率、平均绝对误差、Pearson相关系数和R平方等指标进行评估。

背景与挑战

背景概述

多模态情感分析（MSA）是近年来新兴的研究领域，旨在通过结合文本、音频和视觉等多模态信息来提高情感分析的准确性。现有的研究观察到，音频和视觉模态的贡献远低于文本模态，被称为文本主导。为了解决这一问题，研究人员提出了CH-SIMS v2.0数据集，这是CH-SIMS数据集的扩展和增强版。CH-SIMS v2.0数据集包含2121个经过精炼的视频片段，其中包含单模态和多模态标注，以及10161个未标注的原始视频片段，这些片段具有丰富的音频和视觉情感承载上下文，以突出情感预测中的非言语线索。此外，还提出了Acoustic Visual Mixup Consistent (AV-MC)框架，利用CH-SIMS v2.0中的单模态标注和未标注数据进行训练。AV-MC框架通过将来自不同视频的音频和视觉模态进行混合，使模型能够学习到不同的非言语上下文，从而提高情感预测的准确性。

当前挑战

CH-SIMS v2.0数据集和相关研究面临着一些挑战。首先，现有的多模态情感分析研究仍然过度依赖于文本模态，音频和视觉模态的贡献被低估。其次，音频和视觉表征学习在联合学习框架中未得到优化，导致模型无法充分利用这些模态。为了解决这些问题，研究人员提出了CH-SIMS v2.0数据集和AV-MC框架。CH-SIMS v2.0数据集提供了丰富的非言语上下文信息，而AV-MC框架通过模态混合策略增强音频和视觉模态表征学习。这些研究和方法为解决多模态情感分析中的挑战提供了新的思路和方向。

常用场景

经典使用场景

CH-SIMS v2.0 数据集主要用于多模态情感分析（MSA），旨在通过整合文本、声学和视觉模态，提升情感识别的准确性和鲁棒性。该数据集为研究人员提供了丰富的非言语行为样本，有助于探索声学和视觉模态在情感预测中的有效性。同时，AV-Mixup Consistent（AV-MC）框架通过模态混合策略，进一步增强了模型对非言语行为的感知能力，为情感分析任务提供了新的研究方向。

实际应用

CH-SIMS v2.0 数据集和 AV-MC 框架在实际应用场景中具有广泛的应用前景，例如智能客服、情感分析、人机交互等。通过整合文本、声学和视觉模态，可以更准确地识别用户的情感状态，从而提供更加个性化和人性化的服务。此外，该数据集和框架还可以用于情感识别模型的训练和评估，为相关研究提供可靠的实验基础。

衍生相关工作

CH-SIMS v2.0 数据集和 AV-MC 框架的提出，推动了 MSA 研究的发展，并衍生出一系列相关研究。例如，基于 CH-SIMS v2.0 数据集，研究人员可以进一步探索不同模态特征组合和模型框架，以更好地利用非言语行为进行情感预测。同时，AV-MC 框架也为其他多模态任务提供了新的思路，例如多模态信息融合、多模态表示学习等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集