MEDIC

Name: MEDIC
Creator: 卡塔尔计算研究中心
Published: 2022-06-09 03:39:41
License: 暂无描述

arXiv2022-06-09 更新2024-06-21 收录

下载链接：

https://crisisnlp.qcri.org/medic/index.html

下载链接

链接失效反馈

官方服务：

资源简介：

MEDIC数据集由卡塔尔计算研究中心创建，包含71,198张社交媒体图像，用于灾难响应的多任务学习。数据集涵盖四种不同的任务，包括灾难类型识别、信息性分类、人道主义分类和损害严重程度评估。这些图像主要来源于Twitter，涵盖多种自然和人为灾难事件。数据集的创建过程涉及详细的图像标注，确保至少两名标注者对标签达成一致。MEDIC数据集的应用领域包括实时灾难管理，旨在通过图像分析快速识别和响应灾难事件，提高救援效率和效果。

The MEDIC dataset was developed by the Qatar Computing Research Institute, consisting of 71,198 social media images intended for multi-task learning in disaster response. The dataset covers four distinct tasks: disaster type identification, informative content classification, humanitarian-related classification, and damage severity assessment. These images are primarily sourced from Twitter, covering a wide range of natural and man-made disaster events. The dataset creation process involved detailed image annotation, ensuring that at least two annotators reached a consensus on the labels. Application scenarios of the MEDIC dataset include real-time disaster management, which aims to rapidly identify and respond to disaster events through image analysis, thereby improving the efficiency and effectiveness of rescue operations.

提供机构：

卡塔尔计算研究中心

创建时间：

2021-08-29

搜集汇总

数据集介绍

构建方式

在心理咨询领域，多模态共情数据集的构建面临隐私保护与数据采集的双重挑战。MEDIC数据集基于UM Psychology的咨询案例视频构建，涵盖婚姻关系、职业困境等多元主题。数据预处理阶段，通过人工方式移除个人身份信息，并利用OpenPose提取面部与躯干特征点以保护隐私。视频依据对话轮次进行切割，每个样本对应一个完整的对话回合，包含来访者的经验表达与咨询师的共情反应。音频内容通过自动语音识别工具转录为文本，并经过人工校对确保准确性。最终数据集包含771个样本，每个样本均标注了表达经验、情感反应与认知反应三个维度的共情标签。

使用方法

该数据集适用于多模态机器学习模型的训练与评估，特别面向共情预测与理解的研究任务。研究者可分别提取视觉关键点特征、音频MFCC特征以及文本BERT嵌入特征，构建多模态融合模型。数据集已按7:1:2的比例划分为训练集、验证集与测试集，支持对表达经验、情感反应与认知反应三个标签的分类预测。基准实验表明，融合三种模态的模型性能显著优于单模态模型，其中文本模态贡献最为突出，而视觉模态的加入能进一步提升模型表现。使用时应遵循数据集的伦理规范，仅用于学术研究目的。

背景与挑战

背景概述

在心理治疗领域，共情作为咨询师与来访者建立有效沟通的核心要素，长期以来受到心理学研究的广泛关注。然而，将共情现象转化为可计算模型的研究却因缺乏高质量数据集而进展缓慢。为此，研究人员于2023年构建了MEDIC数据集，该数据集源自面对面心理咨询场景，收录了771个视频片段，并创新性地引入了表达经验、情感反应和认知反应三个维度的标注体系，以多模态形式捕捉对话中的视觉、听觉与文本信息。这一数据集的建立不仅填补了该领域多模态共情数据资源的空白，也为后续开发智能化心理辅助工具提供了重要的实证基础。

当前挑战

MEDIC数据集面临的挑战主要体现在两个方面：其一，在解决领域问题方面，共情本身是一个多维且主观的心理构念，如何通过计算模型准确识别与量化咨询过程中的共情表达，尤其是区分情感共情与认知共情，仍是一个复杂的认知建模难题。其二，在数据构建过程中，研究人员需克服多源信息同步整合的技术障碍，同时严格遵循伦理规范，通过特征点提取等技术手段保护参与者隐私，并在数据标注阶段确保不同标注者对共情维度评判的一致性，这些因素共同增加了数据集构建的复杂性与严谨性要求。

常用场景

经典使用场景

在心理咨询与情感计算交叉领域，MEDIC数据集为多模态共情识别研究提供了关键支撑。该数据集源自真实场景下的面对面心理咨询会话，精准捕捉了咨询师与来访者互动中的视觉、听觉与文本信息。其最经典的应用场景在于构建和验证多模态机器学习模型，用以自动识别与量化咨询过程中的共情表达。研究者通过融合面部表情、语音韵律和对话文本等多源信号，能够深入解析共情在人际沟通中的动态呈现机制，为智能化心理辅助工具的研发奠定数据基础。

解决学术问题

MEDIC数据集有效应对了共情计算研究中长期存在的若干瓶颈问题。传统研究多依赖于单一文本或音频模态，难以全面刻画面对面互动中丰富的非语言共情线索。该数据集首次在心理咨询场景中整合了视觉、音频与文本三维数据，并创新性地提出了经验表达、情感反应与认知反应三重标注体系。这一框架突破了既往量表仅关注认知共情的局限，实现了对共情多维结构的精细化度量，从而助力于建立更贴合实际交互的共情计算理论模型，推动了情感计算与临床心理学的深度交叉融合。

实际应用

该数据集的实际应用价值主要体现在智能化心理健康服务系统的开发与优化。基于MEDIC训练的模型能够实时分析咨询会话，自动评估咨询师的共情反应质量，为新手咨询师提供即时反馈与技能培训支持。在远程心理服务平台中，此类技术可辅助监测与提升服务提供者的共情沟通水平，保障干预效果。同时，数据集也为开发具备共情能力的虚拟代理或聊天机器人提供了宝贵的真实交互范例，使其能在教育、初筛或日常情感支持场景中，进行更具人文关怀的自动化响应。

数据集最近研究