audsem

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/gijs/audsem

下载链接

链接失效反馈

官方服务：

资源简介：

AudSem是一个新颖、高质量、多样化的音频语言数据集，旨在通过提供丰富的、合成的音频样本及其对应的描述来增强音频语言模型（ALM）的推理能力，特别是对声音细粒度语义的推理。数据集包含两种配置：`audsem-semantic`（默认配置）和`audsem-simple`。`audsem-semantic`配置包括三个阶段的输出结构：思考、语义元素和答案。数据集由YouTube视频的字幕生成，并通过一系列过滤和合成过程创建。它包含音频片段、文本提示/响应对，并支持音频字幕、多选音频问答、开放式音频问答和创意写作/故事生成等任务。

创建时间：

2025-05-22

原始信息汇总

AudSem 数据集概述

基本信息

名称: AudSem
类型: 音频问答/音频分类
语言: 英语 (en)
数据量级: 10万<n<100万
许可证: CC-BY-NC-SA-4.0
标签: audio, audio-question-answering, synthetic

数据集描述

核心特点

提供两种配置：
- audsem-semantic（默认）：包含三阶段输出结构（思考/语义元素/答案）
- audsem-simple：简化版本
音频格式：WAV（32kHz/16bit/单声道）
最小音频长度：3秒
平均文本长度：852.63字符

数据构成

原始来源：YouTube SDH字幕（7500万条初始数据）
最终样本量：
- 高质量音频样本：213,908个
- 生成示例：约797,000个（semantic配置）

任务类型

音频描述生成
多选音频问答
开放式音频问答
创意写作/故事生成

数据结构

字段说明

audio:
- path: 音频文件路径
- array: 音频信号数组
- sampling_rate: 采样率
text: 结构化响应（含思考/语义元素/答案）
query: 用户提问

语义描述符（仅semantic配置）

类别	描述
发声主体	产生声音的生物体（人/动物）
物理声源	发声的物理对象（钟/汽车）
发声机制	声音产生的动作（鸣叫/行走）
时间上下文	声音发生的时间背景
空间上下文	声音发生的位置环境
声学表面	影响声学特性的物理材料
信号描述	声学信号特征（嗡嗡声/和弦）
听觉属性	听觉感知特性（响亮/柔和）
非听觉感受	情感/主观印象描述

质量控制

重叠控制：
- AudioSet重叠：12例
- AudioCaps重叠：1例
- VGGSound重叠：0例
过滤标准：
- CLAP嵌入余弦距离>0.9的样本被移除
- 音频文本对齐相似度<0.5的样本被移除

数据生成流程

数据获取：
- 通过yt-dlp下载精确时间段的音视频
- 使用ffmpeg标准化格式（360p视频/32kHz音频）
多模态分析：
- 音频分析：Qwen2Audio/BEATs/AST等7个模型
- 视觉分析：BLIP/CLIP/RT-DETR等4个模型
- 视频分析：LLaVA-Video处理时序信息
标注生成：
- 使用Qwen2.5-72B-Instruct生成结构化输出
- 通过xgrammar/vLLM强制结构化格式
- 验证模型进行5次迭代质量检查

使用方式

python from datasets import load_dataset dataset = load_dataset("gijs/audsem", data_files=["creative_qa/train/*.tar",...], split="train", num_proc=16)

相关资源

论文：https://arxiv.org/abs/2505.14142
代码库：https://github.com/gljs/audsemthinker
简化版数据集：https://huggingface.co/datasets/gijs/audsem-simple

搜集汇总

数据集介绍

构建方式

AudSem数据集通过多阶段自动化流程构建，首先从YouTube字幕中筛选出包含声音描述的SDH条目，利用BERT和Mixtral模型进行验证。随后下载对应时间戳的音频片段，并转换为标准格式。通过Qwen2Audio-7B等先进模型进行多模态分析，包括音频特征提取、视觉场景理解等，确保数据质量。最终使用Qwen2.5-72B模型生成结构化标注，包含思考过程、语义元素和答案三部分，形成丰富的音频-语言对。

使用方法

使用Hugging Face的datasets库可直接加载数据集，支持按任务类型灵活选择数据文件。典型应用包括训练音频语言模型的多任务学习，通过结构化标注引导模型进行分步推理。研究人员可重点利用<semantic_elements>字段分析模型对声音语义的理解能力，或通过对比不同配置（semantic/simple）探究标注粒度对模型性能的影响。创意写作任务则为探索音频驱动的叙事生成提供了独特资源。

背景与挑战

背景概述

AudSem数据集由研究人员Gijs于2024年提出，旨在推动音频-语言模型（ALMs）在细粒度语义推理方面的发展。该数据集源自YouTube视频的封闭字幕，通过多阶段自动化流程构建，包含近80万条高质量音频-文本配对样本。其创新性体现在结构化语义标注体系的设计上，通过<thinking>、<semantic_elements>和<answer>三阶段框架，模拟人类听觉认知过程。作为首个系统整合听觉语义要素的数据集，AudSem有效弥补了传统音频数据集在语义深度和多样性上的不足，为复杂声音场景理解建立了新基准。

当前挑战

该数据集面临双重挑战：在领域层面，需解决现有ALMs对声音事件细粒度推理能力不足的问题，包括声音生成主体识别、时空语境建模等九大语义维度的联合理解；在构建层面，需克服多模态数据对齐的复杂性，如通过CLAP嵌入距离和BERT分类器确保音频-文本一致性，并采用Qwen2.5-72B模型生成符合语法结构的语义描述，最终实现与AudioSet等现有数据集小于0.01%的重叠率控制。

常用场景

经典使用场景

在音频语言模型研究领域，AudSem数据集通过其独特的结构化语义标注机制，为复杂声音事件的推理任务提供了标准化评估基准。该数据集最典型的应用场景是训练和评估音频问答系统，特别是需要多步推理的开放式问题回答任务。研究者可利用其细粒度的语义元素标签，系统分析模型在声音源识别、声学属性理解、时空语境推理等维度的表现。

解决学术问题

AudSem有效解决了音频语言模型研究中的两大核心问题：数据同质化导致的泛化能力不足，以及缺乏显式推理机制的问题。通过构建与现有基准最小重叠的语料库，该数据集为zero-shot评估提供了可靠基础；其创新的思维链标注格式，则首次在音频领域实现了类似文本大模型的逐步推理范式，推动了听觉认知计算模型的发展。

实际应用

在智能语音助手开发中，AudSem支持构建具有深度场景理解能力的对话系统。其丰富的语义标注可提升车载系统对复杂环境声的解析精度，如准确区分警笛声与救护车鸣笛。影视工业应用方面，数据集辅助自动生成符合画面氛围的拟音脚本，通过<thinking>标签中的推理过程优化音效与视觉元素的语义匹配度。

数据集最近研究