behavior-sd

Hugging Face2025-04-26 更新2025-04-27 收录

下载链接：

https://huggingface.co/datasets/yhytoto12/behavior-sd

下载链接

链接失效反馈

官方服务：

资源简介：

Behavior-SD数据集是一个包含108K个全双工对话（共计2,164小时）的口语对话数据集，每个对话都有丰富的说话人行为注释。该数据集旨在用于生成自然、具有丰富行为特征的口语对话。

创建时间：

2025-04-26

搜集汇总

数据集介绍

构建方式

在语音对话生成领域，Behavior-SD数据集通过精心设计的采集流程构建而成。该数据集包含108,000个全双工对话样本，总时长达到2,164小时，每个对话都标注了丰富的说话者行为特征。数据收集过程中采用了专业录音设备和标准化流程，确保音频质量的一致性。研究人员特别关注对话中的行为特征标注，包括填充词使用、插话次数、回应反馈等维度，这些标注由经过专业训练的标注团队完成，并经过多重校验以保证质量。

特点

Behavior-SD数据集最显著的特点是它细致的行为特征标注体系。每个对话样本不仅包含原始音频和文本转录，还详细记录了说话者的行为模式，如话语长度、填充词使用频率、插话次数等。数据集涵盖了多样化的对话场景和说话风格，能够反映真实世界中的复杂交互行为。此外，数据集还提供了说话者的性别信息和独特的TTS说话人ID，为语音合成研究提供了宝贵资源。

使用方法

该数据集可通过Hugging Face平台便捷获取，支持流式加载模式以处理大规模数据。研究人员可以使用datasets库直接加载数据集，或通过Git LFS按需下载特定部分。数据集采用标准化的JSON格式存储，每个样本包含完整的元数据和行为标注信息。使用示例代码可以轻松遍历数据集，访问音频文件、对话文本和行为特征等各类信息，为语音对话生成和行为分析研究提供了灵活的数据接口。

背景与挑战

背景概述

Behavior-SD数据集由首尔国立大学的Sehun Lee、Kang-wook Kim和Gunhee Kim团队于2025年发布，旨在探索如何利用大型语言模型（LLMs）生成具有丰富行为特征的语音对话。该数据集包含108,000个全双工对话，总计2,164小时的语音数据，并标注了说话者的行为特征，如填充词、反馈信号和打断次数等。这一研究在语音处理和口语理解领域具有重要影响力，获得了SAC奖项，为语音对话生成和行为分析提供了新的研究基础。

当前挑战

Behavior-SD数据集面临的挑战主要包括两方面：在领域问题方面，如何准确捕捉和生成具有自然行为特征的语音对话仍是一个难题，尤其是在多轮对话中模拟人类的非语言行为（如反馈信号和打断）；在构建过程中，数据集的规模庞大（176GB），标注复杂且耗时，同时需要确保语音质量和行为标注的一致性，这对数据处理和存储提出了较高要求。

常用场景

经典使用场景

在语音对话系统研究中，Behavior-SD数据集因其丰富的说话者行为标注而成为评估和训练行为感知对话生成模型的黄金标准。该数据集通过捕捉填充词、反馈信号和打断等细微行为特征，为研究者提供了分析人类对话动态的独特视角，特别是在探究非语言行为对对话流畅性影响的实验中展现出不可替代的价值。

衍生相关工作

基于该数据集衍生的BeDLM框架开创了端到端行为感知对话生成的新范式，后续研究相继提出了基于对比学习的行为特征解耦方法、多模态行为条件生成模型等创新工作。在NAACL等顶会上，以该数据集为基础的对话行为分析论文已形成独立的研究分支。

数据集最近研究