Clotho-Moment
收藏Clotho-Moment 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本到音频 (text-to-audio)
- 语言: 英语 (en)
- 数据规模: 10K<n<100K
数据集内容
- 包含长音频文件,其中包含带有时间和文本注释的音频事件。
数据划分
- 训练集 (Train):
- 文件路径:
train/train-{000..715}.tar - 样本数量: 37,930
- 文件路径:
- 验证集 (Valid):
- 文件路径:
valid/valid-{000..108}.tar - 样本数量: 5,741
- 文件路径:
- 测试集 (Test):
- 文件路径:
test/test-{000..142}.tar - 样本数量: 7,569
- 文件路径:
使用方式
-
使用
Webdataset加载数据: python import torch import webdataset as wds from huggingface_hub import get_token from torch.utils.data import DataLoaderhf_token = get_token() url = "https://huggingface.co/datasets/lighthouse-emnlp2024/Clotho-Moment/resolve/main/train/train-{{001..002}}.tar" url = f"pipe:curl -s -L {url} -H Authorization:Bearer {hf_token}" dataset = wds.WebDataset(url, shardshuffle=None).decode(wds.torch_audio)
for sample in dataset: print(sample.keys())
引用信息
bibtex @inproceedings{munakata2025language, title={Language-based Audio Moment Retrieval}, author={Munakata, Hokuto and Nishimura, Taichi and Nakada, Shota and Komatsu, Tatsuya}, booktitle={ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, pages={1--5}, year={2025}, organization={IEEE} }




