Clotho-Moment

Hugging Face2025-05-31 更新2025-06-01 收录

下载链接：

https://huggingface.co/datasets/lighthouse-emnlp2024/Clotho-Moment

下载链接

链接失效反馈

官方服务：

资源简介：

Clotho-Moment数据集包含wav格式的音频文件，用于基于语言的音频时刻检索任务。数据集分为训练集、验证集和测试集，分别包含37930、5741和7569个音频样本。每个样本包含一段长音频，其中包含一些具有时间和文本注释的音频事件。

创建时间：

2025-05-19

原始信息汇总

Clotho-Moment 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本到音频 (text-to-audio)
语言: 英语 (en)
数据规模: 10K<n<100K

数据集内容

包含长音频文件，其中包含带有时间和文本注释的音频事件。

数据划分

训练集 (Train):
- 文件路径: train/train-{000..715}.tar
- 样本数量: 37,930
验证集 (Valid):
- 文件路径: valid/valid-{000..108}.tar
- 样本数量: 5,741
测试集 (Test):
- 文件路径: test/test-{000..142}.tar
- 样本数量: 7,569

使用方式

使用 Webdataset 加载数据: python import torch import webdataset as wds from huggingface_hub import get_token from torch.utils.data import DataLoader

hf_token = get_token() url = "https://huggingface.co/datasets/lighthouse-emnlp2024/Clotho-Moment/resolve/main/train/train-{{001..002}}.tar" url = f"pipe:curl -s -L {url} -H Authorization:Bearer {hf_token}" dataset = wds.WebDataset(url, shardshuffle=None).decode(wds.torch_audio)

for sample in dataset: print(sample.keys())

引用信息

bibtex @inproceedings{munakata2025language, title={Language-based Audio Moment Retrieval}, author={Munakata, Hokuto and Nishimura, Taichi and Nakada, Shota and Komatsu, Tatsuya}, booktitle={ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, pages={1--5}, year={2025}, organization={IEEE} }

搜集汇总

数据集介绍

构建方式

在音频信息检索领域，Clotho-Moment数据集的构建采用了系统化的标注流程。该数据集收录了包含多个音频事件的长音频片段，并为每个事件提供了精确的时间戳和文本描述。通过专业标注团队对音频内容进行人工审核与标注，确保了时间边界与语义描述的高度一致性。数据集按照标准机器学习范式划分为训练集、验证集和测试集，分别包含37930、5741和7569个样本，这种划分方式为模型训练与评估提供了可靠的数据基础。

使用方法

针对实际研究应用，Clotho-Moment数据集采用WebDataset格式进行组织，极大简化了数据加载流程。研究人员可通过指定URL模式使用curl命令流式读取压缩包数据，配合webdataset库的解码功能直接获取音频张量。数据集支持按需加载机制，用户可通过调整tar文件范围灵活控制内存占用。这种设计既保证了大规模数据的高效存取，又提供了与PyTorch等深度学习框架的无缝集成接口。

背景与挑战

背景概述

在音频信息检索领域，基于语言的时刻检索技术旨在通过自然语言描述精准定位长音频中的特定事件片段。Clotho-Moment数据集由LINE公司研究团队于2024年构建，作为其发表于ICASSP 2025会议的研究成果，该数据集聚焦于多模态交互场景下的时序对齐问题。通过整合音频波形与文本标注，它为探索语言描述与音频事件时空关联性提供了重要实验基础，推动了音频语义理解与跨模态检索技术的发展。

当前挑战

该数据集致力于解决语言驱动的音频时刻检索任务，其核心挑战在于如何建模长音频序列中语言描述与瞬态事件的细粒度对齐。构建过程中需克服多模态标注的一致性难题，包括音频事件边界划分的模糊性、文本描述的语义多样性，以及大规模数据中时序标注的精确性保障。此外，音频信号的时频特性与语言符号系统的异构性，进一步增加了跨模态表征学习的复杂度。

常用场景

经典使用场景

在音频与语言交叉模态研究领域，Clotho-Moment数据集通过提供带有时间戳和文本描述的长音频样本，成为语言引导音频时刻检索任务的基准资源。该数据集典型应用于训练模型根据自然语言查询定位音频中特定事件发生的起止时间，例如在环境声音分析中识别“狗吠声后紧接着玻璃破碎”的复合事件。其多模态特性支持端到端学习框架，常被用于评估序列到序列模型在跨模态对齐任务上的泛化能力。

解决学术问题

该数据集有效解决了多媒体信息检索中语义鸿沟的经典难题，即如何建立非结构化音频信号与抽象语言描述之间的精确映射。通过提供大规模细粒度标注，它推动了基于注意力的神经网络在时序定位任务上的创新，显著提升了模型对音频事件层次化关系的理解。这一资源填补了音频时刻检索领域缺乏标准化评测数据的空白，为研究多模态表示学习的可解释性提供了实验基础。

实际应用

在实际应用层面，Clotho-Moment支撑的检索技术可广泛应用于智能监控系统，例如通过“婴儿啼哭持续十秒”的语音指令快速定位监控录音片段。在多媒体内容管理领域，它能实现音频素材的智能标签化，帮助视频编辑者精准提取特定音效。此外，该技术还可集成于助听设备，辅助听障人士根据文本描述检索环境声音中的重要事件，提升人机交互的包容性。

数据集最近研究