synthetic_vocal_burts_dramabox
收藏数据集概述
数据集名称:Synthetic Vocal Bursts (DramaBox)
许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)
任务类别:音频分类、文本转音频
语言:英语
数据集规模:1K < n < 10K(2,000个样本)
数据集详情
- 总样本数:2,000个音频片段
- 总时长:约4.2小时(14,992秒)
- 平均时长:7.5秒
- 时长范围:3.0 – 12.0秒
- 采样率:44.1 kHz(WAV格式)
- 性别分布:1,000个女性 / 1,000个男性
- 年龄组:16组(8个女性组、8个男性组)
- 每组样本数:125个
- 独特声音爆发类型:197种
- 生成模型:DramaBox TTS
- 硬件:8x NVIDIA A100 GPU
年龄组
数据集在16个年龄/性别组间平衡(每组125个样本):
女性组:
- toddler_girl(幼儿女孩)
- pre_puberty_girl(青春期前女孩)
- teenage_girl(青少年女孩)
- young_woman(年轻女性)
- mature_woman(成熟女性)
- middle_aged_woman(中年女性)
- elderly_woman(老年女性)
- senescent_woman(衰老女性)
男性组:
- toddler_boy(幼儿男孩)
- pre_puberty_boy(青春期前男孩)
- teenage_boy(青少年男孩)
- young_man(年轻男性)
- mature_man(成熟男性)
- middle_aged_man(中年男性)
- elderly_man(老年男性)
- senescent_man(衰老男性)
声音爆发分类
数据集使用了扩展的197种声音爆发类型分类体系,来源包括:
- 原始LAION分类:约120个条目(来自LAION Voice-Acting-Pipeline)
- 附加类别:NSFW声音、运动/原始声音、唱歌、哼唱、吹口哨
此外还提供了一个SFW(安全)子集,包含180个条目,过滤了NSFW内容。
分类文件包含在数据集中:
vocal_bursts_taxonomy_extended.json:完整扩展分类(202个条目 + 元数据)vocal_bursts_taxonomy_sfw.json:SFW子集(180个条目 + 元数据)
示例声音爆发类型:捧腹大笑、轻声笑、咯咯笑、窃笑、尖笑、轻声哭泣、痛哭、呜咽、喘息、如释重负的叹息、恼怒的哼声、沮丧的低吼、惊吓咕哝、黑暗中紧张的吹口哨、战斗呐喊、摇篮曲哼唱等。
数据格式
数据集以WebDataset tar分片形式存储在 data/ 目录下:
data/ shard-0000.tar (样本 0001–0500) shard-0001.tar (样本 0501–1000) shard-0002.tar (样本 1001–1500) shard-0003.tar (样本 1501–2000)
每个分片是标准的tar归档文件。每个样本包含两个文件,共享相同的零填充4位键:
{NNNN}.wav— 音频文件(WAV,44.1 kHz){NNNN}.json— 元数据JSON
元数据字段:
json { "id": 1, "prompt": "A toddler girl performing Nervous Whistling in the Dark, A shaky, slightly off-key whistling used to mask fear in an unsettling environment.", "duration_s": 5.2, "gender": "female", "age_group": "toddler_girl", "age_descriptor": "toddler girl", "vocal_burst_key": "Nervous Whistling in the Dark", "vocal_burst_description": "A shaky, slightly off-key whistling used to mask fear in an unsettling environment." }
使用方式
使用 webdataset(推荐用于流式/训练):
python import webdataset as wds import json
url = "https://huggingface.co/datasets/laion/synthetic_vocal_burts_dramabox/resolve/main/data/shard-{0000..0003}.tar"
dataset = ( wds.WebDataset(url, shardshuffle=True) .decode("pil") .to_tuple("wav", "json") )
for wav_bytes, metadata_bytes in dataset: metadata = json.loads(metadata_bytes) print(metadata["vocal_burst_key"], metadata["age_descriptor"], len(wav_bytes), "bytes") break
使用 huggingface_hub(下载单个分片):
python from huggingface_hub import hf_hub_download
path = hf_hub_download( repo_id="laion/synthetic_vocal_burts_dramabox", filename="data/shard-0000.tar", repo_type="dataset", )
直接提取tar文件:
python import tarfile import json
with tarfile.open("shard-0000.tar") as tar: members = tar.getmembers() for m in members[:4]: print(m.name, m.size)
附加文件
prompts_manifest.csv:完整生成清单,包含列:id,prompt,output_path,gender,age_group,vocal_burst_key,vocal_burst_description,duration_svocal_bursts_taxonomy_extended.json:扩展分类(202个条目)vocal_bursts_taxonomy_sfw.json:SFW分类(180个条目)
生成过程
- 从LAION Voice-Acting-Pipeline分类中整理出扩展的声音爆发分类,并添加附加类别
- 对于16个年龄/性别组中的每组,从分类中采样125种声音爆发类型
- 生成文本提示,格式为:"A {age_descriptor} performing {burst_key}, {burst_description}"
- 使用DramaBox TTS在8x NVIDIA A100 GPU上分布式合成音频
- 每个样本生成时随机设定3–12秒的时长
引用
如使用本数据集,请引用:
bibtex @dataset{synthetic_vocal_bursts_dramabox_2026, title={Synthetic Vocal Bursts (DramaBox)}, author={LAION}, year={2026}, url={https://huggingface.co/datasets/laion/synthetic_vocal_burts_dramabox}, license={CC-BY-4.0} }




