audsem-simple
收藏AudSem Simple 数据集概述
数据集基本信息
- 名称: AudSem Simple
- 标签: audio, audio-question-answering, reasoning, synthetic
- 许可证: CC-BY-NC-SA 4.0
- 语言: 英语 (en)
- 数据量级: 100K < n < 1M
- 任务类型: 音频分类
数据集描述
概述
AudSem Simple 是一个高质量、多样化的音频-语言数据集,旨在通过结构化声音推理增强音频-语言模型(ALMs)的能力。该数据集提供精心筛选的音频样本与合成生成的丰富字幕配对。
配置
- audsem-simple: 提供两阶段输出结构(
<thinking>和<answer>阶段) - audsem-semantic: 提供更详细的语义描述(需访问其他链接)
动机
解决传统音频-语言模型在复杂声音推理中的局限性:
- 训练数据多样性不足
- 缺乏结构化推理机制
数据结构
数据字段
audio: 包含音频路径、数组和采样率text: 结构化助理响应(<think>...</think><answer>...</answer>)query: 用户的提示/问题
任务类型
- 音频字幕生成
- 多选音频问答
- 开放式音频问答
- 创意写作/故事生成
数据集统计
数据规模
- 初始YouTube字幕: 约29亿行
- 最终生成示例: 约873,000个
- 音频长度: 至少3秒
- 平均字幕长度: 852.63字符
与其他数据集的重叠
- AudioSet: 12个重叠示例
- AudioCaps: 1个重叠示例
- VGGSound: 0个重叠示例
数据收集与标注
数据来源
主要来自YouTube视频的英语闭路字幕(SDH条目)
处理流程
- 初始过滤
- 声音描述验证
- 视频片段下载
- 标准化处理
- 打包组织
质量过滤
- 异常值移除
- 长度过滤
- 字幕对齐
使用方式
python from datasets import load_dataset dataset_semantic = load_dataset("gijs/audsem-simple", data_files=["creative_qa/train/.tar", "qa/train/.tar", "mc_qa/train/.tar", "aac/train/.tar"], split="train", num_proc=16)
限制与偏见
限制
- 合成性质可能引入模型固有的偏见或伪影
潜在偏见
- YouTube数据偏见
- 字幕制作者偏见
- 大语言模型生成偏见
伦理考量
- 遵循负责任的数据科学实践
- 关注隐私保护
- 促进音频-语言理解的基础研究
引用
bibtex @misc{wijngaard2025audsemthinkerenhancingaudiolanguagemodels, title={AudSemThinker: Enhancing Audio-Language Models through Reasoning over Semantics of Sound}, author={Gijs Wijngaard and Elia Formisano and Michele Esposito and Michel Dumontier}, year={2025}, eprint={2505.14142}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2505.14142}, }




