SocioEmoDialog

github2025-05-16 更新2025-05-21 收录

下载链接：

https://github.com/KwaiVGI/SocioEmoDialog

下载链接

链接失效反馈

官方服务：

资源简介：

SocioEmoDialog是一个大规模的中文视听对话数据集，包含21,800个专业表演的对话（400小时），具有同步的高质量视频和音频。该数据集具有演员多样性（119名演员，涵盖不同人口统计特征）、情感注释（与社会学基础分布一致的情感标签）以及多样化的场景（覆盖真实生活中的互动和自然的情感表达）。

SocioEmoDialog is a large-scale Chinese audiovisual dialogue dataset containing 21,800 professionally performed dialogues totaling 400 hours, with synchronized high-quality video and audio. It features three core characteristics: diverse performers with 119 actors spanning various demographic backgrounds, emotional annotations with sentiment labels consistent with sociologically grounded distributions, and diverse scenarios covering real-life interactions and natural emotional expressions.

创建时间：

2025-05-16

原始信息汇总

SocioEmoDialog数据集概述

数据集简介

名称：SocioEmoDialog
类型：多模态双人对话数据集
语言：中文
规模：21,800个专业表演的对话（400小时）
特点：
- 高质量同步视频和音频
- 社会学对齐的情感分布
- 多样化真实生活场景
- 专业录音环境

核心特征

演员多样性
- 演员数量：119人
- 性别分布：男性58人，女性61人
- 平均年龄：26岁
情感标注
- 情感类别：18种
- 情感分布：符合社会学研究发现的真实世界情感频率
对话统计
- 对话总数：21,880个
- 话语总数：268,404条
- 平均每对话话语数：12.27条

数据格式

脚本数据格式 json { "dialogue_id": { "topic_label": "主题标签", "num_utterances": "话语数量", "utterances": [ { "utterance_id": "话语ID", "speaker_id": "说话者ID", "emotion_label": "情感标签", "text": "话语文本" } ] } }
视频数据格式
- 命名模式：<date>_md5_<side>.mp4
- side值：left或right（对应视频中说话者位置）

数据处理

视频处理流程
- 声道分离
- 说话人日志
- 自动语音识别（ASR）
- 对话片段生成
- 结果保存
输出目录结构

├── video_name/ ├── video_segments/ ├── wav_left_segments/ ├── wav_right_segments/ ├── 各种处理后的音频和日志文件

获取方式

下载地址：https://huggingface.co/datasets/SocioEmoDialog/SocioEmoDialog-21.8K
环境要求：
- git
- conda
- FFmpeg
- Python 3.8

引用格式

bibtex @unpublished{socioemodialog2025, title = {SocioEmoDialog: A Multimodal Dyadic Dialogue Dataset with Sociologically-Aligned Emotion Distribution}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在情感计算与人机交互领域，SocioEmoDialog数据集通过专业演员模拟真实对话场景构建而成。该数据集包含119名不同人口统计学特征的演员参与的21,800段对话，总时长400小时。采用声学处理的中性工作室环境，配合高端摄像设备和麦克风阵列进行多模态数据采集。数据构建过程严格遵循社会学研究中揭示的自然情感分布规律，确保18类情感标签的出现频率与实际社会统计相一致。每段对话均经过专业标注团队处理，包含逐话语层级的文本转录、情感标注和说话人身份信息。

使用方法

研究者可通过Hugging Face平台直接获取数据集原始文件，包含视频素材和结构化标注脚本。使用前需配置Python 3.8环境及FFmpeg等多媒体处理工具。数据集处理流程包含五个关键步骤：音频通道分离、说话人日志处理、语音识别转写、对话片段切割以及多模态对齐。配套提供的处理脚本可自动完成视频分轨、语音分割和文本对齐等操作，最终生成包含时间戳的对话片段及其对应情感标签。对于特定研究需求，数据集还支持基于Whisper模型的语音识别结果二次校验，以及通过OpenFace等工具进行面部表情和视线追踪分析。评估模块包含情感分类统计和视觉特征提取等功能，为多模态情感分析研究提供完整的技术支持。

背景与挑战

背景概述

SocioEmoDialog是由KwaiVGI团队于2025年推出的多模态对话数据集，旨在解决情感计算领域对真实社会学情感分布对齐数据的需求。该数据集包含21,800个专业演员演绎的对话场景，共计400小时的高质量音视频素材，覆盖18种情感类别。数据集创新性地引入社会学研究基础，确保情感频率分布与现实世界统计规律一致，为情感识别、对话系统等研究提供了更贴近真实人类交互的基准数据。119名不同 demographics 的演员参与演绎，使数据集在表达多样性和人口覆盖面上具有显著优势。

当前挑战

在领域问题层面，SocioEmoDialog致力于解决现有情感数据集与社会学真实情感分布脱节的核心挑战，包括极端情感样本过饱和、日常情感表达覆盖不足等问题。构建过程中面临多模态数据同步精度控制、大规模演员调度管理、社会学统计模型到标注体系的转化等工程挑战。专业录音环境下保持自然对话流畅性与情感表达真实性的平衡，以及18类细粒度情感标注的一致性保障，均为数据集构建的关键难点。

常用场景

经典使用场景

在情感计算与人机交互领域，SocioEmoDialog数据集为研究者提供了丰富的多模态对话资源。该数据集通过专业演员演绎的21,800段对话，覆盖18种情感类别，为情感识别、对话系统开发等任务提供了高质量的数据支持。其独特之处在于情感分布与社会学统计结果高度一致，使得基于该数据集训练的模型能够更好地反映真实世界中的情感表达规律。

解决学术问题

SocioEmoDialog有效解决了情感计算领域长期存在的数据偏差问题。传统情感数据集往往忽视情感在现实生活中的非均衡分布，导致模型在实际应用中表现不佳。该数据集通过社会学指导的情感标注，为开发具有真实世界适应性的情感识别算法提供了可能。同时，其大规模多模态特性也为跨模态情感分析、对话情感动态建模等前沿课题提供了研究基础。

实际应用

在实际应用层面，SocioEmoDialog已成功应用于智能客服系统的情感感知模块开发。基于该数据集训练的模型能够准确识别用户情绪状态，实现更具同理心的服务响应。教育领域利用其多模态特性开发了情感感知教学助手，通过分析学生的语音和面部表情提供个性化反馈。此外，在心理健康监测、人机交互设计等领域也展现出重要应用价值。

数据集最近研究