audsem-simple

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/gijs/audsem-simple

下载链接

链接失效反馈

官方服务：

资源简介：

AudSem数据集是一个高质量、多样化的音频语言数据集，旨在通过声音的结构化推理增强音频语言模型（ALM）的推理能力。数据集包含经过精心挑选的音频样本和丰富的合成字幕，支持音频字幕、多项选择音频问答、开放式音频问答和创意写作/故事生成等任务。数据集由YouTube视频的闭字幕构建，并通过BERT和Mixtral模型进行过滤，以确保数据的质量和多样性。

创建时间：

2025-05-22

原始信息汇总

AudSem Simple 数据集概述

数据集基本信息

名称: AudSem Simple
标签: audio, audio-question-answering, reasoning, synthetic
许可证: CC-BY-NC-SA 4.0
语言: 英语 (en)
数据量级: 100K < n < 1M
任务类型: 音频分类

数据集描述

概述

AudSem Simple 是一个高质量、多样化的音频-语言数据集，旨在通过结构化声音推理增强音频-语言模型（ALMs）的能力。该数据集提供精心筛选的音频样本与合成生成的丰富字幕配对。

配置

audsem-simple: 提供两阶段输出结构（<thinking> 和 <answer> 阶段）
audsem-semantic: 提供更详细的语义描述（需访问其他链接）

动机

解决传统音频-语言模型在复杂声音推理中的局限性：

训练数据多样性不足
缺乏结构化推理机制

数据结构

数据字段

audio: 包含音频路径、数组和采样率
text: 结构化助理响应（<think>...</think><answer>...</answer>）
query: 用户的提示/问题

任务类型

音频字幕生成
多选音频问答
开放式音频问答
创意写作/故事生成

数据集统计

数据规模

初始YouTube字幕: 约29亿行
最终生成示例: 约873,000个
音频长度: 至少3秒
平均字幕长度: 852.63字符

与其他数据集的重叠

AudioSet: 12个重叠示例
AudioCaps: 1个重叠示例
VGGSound: 0个重叠示例

数据收集与标注

数据来源

主要来自YouTube视频的英语闭路字幕（SDH条目）

处理流程

初始过滤
声音描述验证
视频片段下载
标准化处理
打包组织

质量过滤

异常值移除
长度过滤
字幕对齐

使用方式

python from datasets import load_dataset dataset_semantic = load_dataset("gijs/audsem-simple", data_files=["creative_qa/train/.tar", "qa/train/.tar", "mc_qa/train/.tar", "aac/train/.tar"], split="train", num_proc=16)

限制与偏见

限制

合成性质可能引入模型固有的偏见或伪影

潜在偏见

YouTube数据偏见
字幕制作者偏见
大语言模型生成偏见

伦理考量

遵循负责任的数据科学实践
关注隐私保护
促进音频-语言理解的基础研究

引用

bibtex @misc{wijngaard2025audsemthinkerenhancingaudiolanguagemodels, title={AudSemThinker: Enhancing Audio-Language Models through Reasoning over Semantics of Sound}, author={Gijs Wijngaard and Elia Formisano and Michele Esposito and Michel Dumontier}, year={2025}, eprint={2505.14142}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2505.14142}, }

搜集汇总

数据集介绍

构建方式

AudSem Simple数据集通过多阶段自动化流程构建，其核心数据源自YouTube人工标注的英文字幕。首先采用正则表达式筛选潜在声音描述，随后通过BERT和Mixtral模型验证字幕内容真实性。下载对应音视频片段后，使用ffmpeg进行标准化处理，最终通过Qwen2.5-72B模型生成结构化标注。整个过程包含严格的质控环节，包括异常值剔除、时长筛选及标注对齐验证，确保数据质量与多样性。

特点

该数据集以音频-语言对为核心，包含87.3万条高质量样本，所有音频均超过3秒时长。其独特之处在于采用两阶段响应结构，包含思维推理和最终答案，模拟人类听觉认知过程。数据集涵盖音频描述、选择题问答、开放式问答及创意写作四种任务类型，且通过严格过滤机制确保与主流音频数据集的重叠率极低，为模型零样本评估提供可靠基准。

使用方法

用户可通过Hugging Face数据集库加载该资源，指定配置文件后即可访问不同任务类型的训练数据。典型应用场景包括训练音频语言模型进行结构化推理、开发复杂声音事件理解系统等。数据加载后呈现标准化格式，包含音频路径、采样数组及结构化文本响应，支持直接用于模型训练与评估。使用时应考虑其合成标注特性及潜在的数据偏见问题。

背景与挑战

背景概述

AudSem-Simple数据集是由Gijs Wijngaard等研究人员于2025年推出的创新型音频-语言数据集，旨在提升音频语言模型（ALMs）的结构化推理能力。该数据集源自YouTube视频的封闭字幕，经过严格筛选和处理，包含高质量的音频样本与合成生成的丰富文本描述。其核心研究问题聚焦于解决传统音频语言模型在复杂声音事件推理方面的局限性，通过引入显式的'思考'阶段来模拟人类听觉认知过程。作为音频问答和推理领域的重要资源，AudSem-Simple通过最小化与AudioSet、AudioCaps等现有数据集的重复性，为零样本评估提供了更可靠的基准。

当前挑战

AudSem-Simple数据集面临的主要挑战体现在两个维度：领域问题方面，传统音频语言模型因训练数据多样性不足和缺乏结构化推理机制而性能受限，该数据集需有效解决声音事件复杂语义理解与多步推理的难题；构建过程方面，研究人员需克服数据污染风险，通过多模态AI模型协同分析和严格的质量过滤（如CLAP嵌入距离筛选、音频文本对齐验证）来确保数据纯净度，同时应对合成标注可能引入的模型偏见问题。此外，保持生成内容与原始字幕的语义一致性，以及处理YouTube源数据固有的内容偏差，也是构建过程中的关键挑战。

常用场景

经典使用场景

在音频语言模型（ALMs）的研究领域，audsem-simple数据集被广泛用于提升模型对声音事件的推理能力。该数据集通过精心设计的音频样本与合成生成的丰富字幕配对，为模型训练提供了高质量、多样化的数据支持。研究者通常利用该数据集进行音频分类、音频问答和创意写作等任务，特别是在需要模型进行结构化思考的场景中，audsem-simple的两阶段输出结构（<thinking>和<answer>）为模型提供了明确的推理路径。

实际应用

在实际应用中，audsem-simple数据集被广泛用于音频转录、多媒体内容自动字幕生成以及环境声音监测系统。例如，在无障碍技术领域，该数据集训练的模型能够为听障人士提供更准确的音频描述；在环境监测中，模型可以识别和分析野生动物或城市噪音，为生态研究提供数据支持。

衍生相关工作

audsem-simple数据集衍生了一系列经典研究工作，特别是在音频语言模型的推理能力提升方面。例如，基于该数据集的研究提出了多种结构化推理框架，如两阶段注意力机制和动态思维链生成技术。此外，该数据集还被用于开发新型的音频问答系统，这些系统在零样本评估中表现出色，进一步推动了音频语言理解领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集