audsem
收藏Hugging Face2025-05-24 更新2025-05-25 收录
下载链接:
https://huggingface.co/datasets/gijs/audsem
下载链接
链接失效反馈官方服务:
资源简介:
AudSem是一个新颖、高质量、多样化的音频语言数据集,旨在通过提供丰富的、合成的音频样本及其对应的描述来增强音频语言模型(ALM)的推理能力,特别是对声音细粒度语义的推理。数据集包含两种配置:`audsem-semantic`(默认配置)和`audsem-simple`。`audsem-semantic`配置包括三个阶段的输出结构:思考、语义元素和答案。数据集由YouTube视频的字幕生成,并通过一系列过滤和合成过程创建。它包含音频片段、文本提示/响应对,并支持音频字幕、多选音频问答、开放式音频问答和创意写作/故事生成等任务。
创建时间:
2025-05-22
原始信息汇总
AudSem 数据集概述
基本信息
- 名称: AudSem
- 类型: 音频问答/音频分类
- 语言: 英语 (en)
- 数据量级: 10万<n<100万
- 许可证: CC-BY-NC-SA-4.0
- 标签: audio, audio-question-answering, synthetic
数据集描述
核心特点
- 提供两种配置:
audsem-semantic(默认):包含三阶段输出结构(思考/语义元素/答案)audsem-simple:简化版本
- 音频格式:WAV(32kHz/16bit/单声道)
- 最小音频长度:3秒
- 平均文本长度:852.63字符
数据构成
- 原始来源:YouTube SDH字幕(7500万条初始数据)
- 最终样本量:
- 高质量音频样本:213,908个
- 生成示例:约797,000个(semantic配置)
任务类型
- 音频描述生成
- 多选音频问答
- 开放式音频问答
- 创意写作/故事生成
数据结构
字段说明
audio:- path: 音频文件路径
- array: 音频信号数组
- sampling_rate: 采样率
text: 结构化响应(含思考/语义元素/答案)query: 用户提问
语义描述符(仅semantic配置)
| 类别 | 描述 |
|---|---|
| 发声主体 | 产生声音的生物体(人/动物) |
| 物理声源 | 发声的物理对象(钟/汽车) |
| 发声机制 | 声音产生的动作(鸣叫/行走) |
| 时间上下文 | 声音发生的时间背景 |
| 空间上下文 | 声音发生的位置环境 |
| 声学表面 | 影响声学特性的物理材料 |
| 信号描述 | 声学信号特征(嗡嗡声/和弦) |
| 听觉属性 | 听觉感知特性(响亮/柔和) |
| 非听觉感受 | 情感/主观印象描述 |
质量控制
- 重叠控制:
- AudioSet重叠:12例
- AudioCaps重叠:1例
- VGGSound重叠:0例
- 过滤标准:
- CLAP嵌入余弦距离>0.9的样本被移除
- 音频文本对齐相似度<0.5的样本被移除
数据生成流程
-
数据获取:
- 通过yt-dlp下载精确时间段的音视频
- 使用ffmpeg标准化格式(360p视频/32kHz音频)
-
多模态分析:
- 音频分析:Qwen2Audio/BEATs/AST等7个模型
- 视觉分析:BLIP/CLIP/RT-DETR等4个模型
- 视频分析:LLaVA-Video处理时序信息
-
标注生成:
- 使用Qwen2.5-72B-Instruct生成结构化输出
- 通过xgrammar/vLLM强制结构化格式
- 验证模型进行5次迭代质量检查
使用方式
python from datasets import load_dataset dataset = load_dataset("gijs/audsem", data_files=["creative_qa/train/*.tar",...], split="train", num_proc=16)
相关资源
- 论文:https://arxiv.org/abs/2505.14142
- 代码库:https://github.com/gljs/audsemthinker
- 简化版数据集:https://huggingface.co/datasets/gijs/audsem-simple
搜集汇总
数据集介绍

构建方式
AudSem数据集通过多阶段自动化流程构建,首先从YouTube字幕中筛选出包含声音描述的SDH条目,利用BERT和Mixtral模型进行验证。随后下载对应时间戳的音频片段,并转换为标准格式。通过Qwen2Audio-7B等先进模型进行多模态分析,包括音频特征提取、视觉场景理解等,确保数据质量。最终使用Qwen2.5-72B模型生成结构化标注,包含思考过程、语义元素和答案三部分,形成丰富的音频-语言对。
使用方法
使用Hugging Face的datasets库可直接加载数据集,支持按任务类型灵活选择数据文件。典型应用包括训练音频语言模型的多任务学习,通过结构化标注引导模型进行分步推理。研究人员可重点利用<semantic_elements>字段分析模型对声音语义的理解能力,或通过对比不同配置(semantic/simple)探究标注粒度对模型性能的影响。创意写作任务则为探索音频驱动的叙事生成提供了独特资源。
背景与挑战
背景概述
AudSem数据集由研究人员Gijs于2024年提出,旨在推动音频-语言模型(ALMs)在细粒度语义推理方面的发展。该数据集源自YouTube视频的封闭字幕,通过多阶段自动化流程构建,包含近80万条高质量音频-文本配对样本。其创新性体现在结构化语义标注体系的设计上,通过<thinking>、<semantic_elements>和<answer>三阶段框架,模拟人类听觉认知过程。作为首个系统整合听觉语义要素的数据集,AudSem有效弥补了传统音频数据集在语义深度和多样性上的不足,为复杂声音场景理解建立了新基准。
当前挑战
该数据集面临双重挑战:在领域层面,需解决现有ALMs对声音事件细粒度推理能力不足的问题,包括声音生成主体识别、时空语境建模等九大语义维度的联合理解;在构建层面,需克服多模态数据对齐的复杂性,如通过CLAP嵌入距离和BERT分类器确保音频-文本一致性,并采用Qwen2.5-72B模型生成符合语法结构的语义描述,最终实现与AudioSet等现有数据集小于0.01%的重叠率控制。
常用场景
经典使用场景
在音频语言模型研究领域,AudSem数据集通过其独特的结构化语义标注机制,为复杂声音事件的推理任务提供了标准化评估基准。该数据集最典型的应用场景是训练和评估音频问答系统,特别是需要多步推理的开放式问题回答任务。研究者可利用其细粒度的语义元素标签,系统分析模型在声音源识别、声学属性理解、时空语境推理等维度的表现。
解决学术问题
AudSem有效解决了音频语言模型研究中的两大核心问题:数据同质化导致的泛化能力不足,以及缺乏显式推理机制的问题。通过构建与现有基准最小重叠的语料库,该数据集为zero-shot评估提供了可靠基础;其创新的思维链标注格式,则首次在音频领域实现了类似文本大模型的逐步推理范式,推动了听觉认知计算模型的发展。
实际应用
在智能语音助手开发中,AudSem支持构建具有深度场景理解能力的对话系统。其丰富的语义标注可提升车载系统对复杂环境声的解析精度,如准确区分警笛声与救护车鸣笛。影视工业应用方面,数据集辅助自动生成符合画面氛围的拟音脚本,通过<thinking>标签中的推理过程优化音效与视觉元素的语义匹配度。
数据集最近研究
最新研究方向
在音频-语言模型(ALMs)领域,AudSem数据集的最新研究方向聚焦于提升模型对声音细粒度语义的结构化推理能力。该数据集通过精心设计的语义元素标签(如声音生成主体、物理声源、声学属性等),为模型提供了多层次的分析框架,显著区别于传统音频描述数据集。当前研究热点集中在如何利用其独特的三阶段推理结构(思考-语义元素-回答)来优化模型的认知建模能力,特别是在零样本迁移学习和跨模态对齐任务中展现出突破性潜力。该数据集通过严格的去重处理,有效解决了音频领域普遍存在的数据污染问题,为声音事件复杂推理任务建立了新的评估基准。
以上内容由遇见数据集搜集并总结生成



