clotho_full

Hugging Face2025-07-15 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/CLAPv2/clotho_full

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了音频文件和对应的文本信息，用于训练语音识别模型。它提供了训练集分割，并包含了如音频时长、音频长度等元数据。数据集以文件名方式组织，可以通过指定的路径访问。

This dataset contains audio files and their corresponding text transcriptions, intended for training speech recognition models. It provides training set splits, and includes metadata such as audio duration and audio length. The dataset is organized by filenames and can be accessed via a specified path.

创建时间：

2025-07-15

原始信息汇总

CLAPv2/clotho_full 数据集概述

数据集基本信息

数据集名称: CLAPv2/clotho_full
下载大小: 87,842,097 字节
数据集大小: 459,217,657 字节
训练集样本数: 225

数据集特征

index: 字符串类型，表示索引
datasetname: 字符串类型，表示数据集名称
audio: 音频类型，存储音频数据
duration: 浮点型，表示音频时长
audio_len: 浮点型，表示音频长度
text: 字符串类型，存储文本信息
raw_text: 字符串序列，存储原始文本
split: 字符串类型，表示数据划分
file_name: 字符串类型，表示文件名

数据划分

train: 包含225个样本，大小为459,217,657字节

配置文件

默认配置: 数据文件路径为 data/train-*

搜集汇总

数据集介绍

构建方式

在音频与文本跨模态研究领域，clotho_full数据集通过系统化采集流程构建而成。其音频样本源自多样化的真实环境录音，并辅以精确的文本描述标注，每段音频均配有对应的自然语言叙述。数据经过严格的质量筛选与时长标准化处理，确保样本在时长分布和信噪比上保持均衡，最终形成结构化的多模态数据集合。

特点

该数据集涵盖225个高质量音频-文本配对样本，总容量约459MB，每个样本包含原始音频波形、精确时长计量及多版本文本描述。其核心特征在于音频数据的多样性，涵盖不同环境音效与语音内容，且文本标注采用双重编码体系，既保留原始叙述又提供标准化文本，为跨模态学习提供丰富表征层次。

使用方法

研究者可通过加载标准化音频波形与对应文本描述，开展音频标注、语音识别或跨模态检索任务。数据集已预划分为训练集，支持端到端模型训练与评估。使用时可依据audio字段读取音频数据，text字段获取标注文本，并通过duration字段实施动态采样策略，适用于深度学习框架的直接调用与批量处理。

背景与挑战

背景概述

音频字幕生成作为跨模态智能处理的前沿领域，旨在将听觉信号转化为自然语言描述。CLOTHO数据集由比利时根特大学于2019年推出，其核心研究聚焦于环境声学场景的语义解析与描述生成。该数据集通过精心设计的音频-文本对，推动了环境声音理解、音频事件检测及生成模型的发展，为智能听觉系统在物联网、辅助技术等领域的应用奠定了数据基础。

当前挑战

环境音频字幕生成面临多重挑战：音频信号的时序非结构化特性使特征提取与对齐复杂化；跨模态语义映射需克服声学概念与语言表达间的鸿沟；数据构建过程中需确保音频质量与文本标注的时空一致性，同时维护多样化的声学场景与语言描述之间的平衡。此外，标注过程需解决主观感知差异带来的标注噪声问题。

常用场景

经典使用场景

在音频与文本跨模态学习领域，clotho_full数据集作为音频字幕生成任务的核心基准，常被用于训练和评估端到端的神经网络模型。研究者通过该数据集探索音频信号与自然语言描述之间的复杂映射关系，尤其在环境声音事件检测与描述生成方面展现出显著价值。其多模态特性支持模型学习从频谱特征到语义空间的转换，为音频内容理解提供了重要数据支撑。

实际应用

基于clotho_full训练的模型已应用于智能监控系统的异常声音检测，能够自动生成环境声音的文本描述以辅助安全预警。在多媒体内容检索领域，该系统支持通过自然语言查询特定音效，显著提升音频素材库的检索效率。此外，在辅助技术中，它为视障人士提供了环境声音的实时语音描述服务，增强了其对周围环境的感知能力。

衍生相关工作

该数据集催生了诸多创新性研究，例如采用Transformer架构的音频-文本跨模态模型Clotho-Audio-Transformer，以及基于对比学习的音频字幕生成框架AudioCLIP。这些工作显著提升了音频描述的准确性和多样性，同时推动了多模态预训练技术在音频领域的应用。后续研究进一步扩展了其在零样本音频分类和跨语言音频检索等方向的探索边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集