audio_caption|音频分类数据集|音频描述生成数据集
收藏数据集概述
数据集配置
AudioSet
- 特征:
audio
: 音频数据messages
: 包含内容和角色的消息列表content
: 字符串类型role
: 字符串类型
- 分割:
train
: 训练集num_bytes
: 26016154360.0 字节num_examples
: 18685 个样本
- 下载大小: 25887156484 字节
- 数据集大小: 26016154360.0 字节
- 数据文件路径:
AudioSet/train-*
ESC50
- 特征:
audio
: 音频数据,采样率为 44100messages
: 包含内容和角色的消息列表content
: 字符串类型role
: 字符串类型
- 分割:
train
: 训练集num_bytes
: 705828850.2 字节num_examples
: 1600 个样本
- 下载大小: 619756842 字节
- 数据集大小: 705828850.2 字节
- 数据文件路径:
esc50/train-*
SoundBible
- 特征:
audio
: 音频数据,采样率为 16000messages
: 包含内容和角色的消息列表content
: 字符串类型role
: 字符串类型
- 分割:
test
: 测试集num_bytes
: 336903591.634 字节num_examples
: 1194 个样本
- 下载大小: 327960068 字节
- 数据集大小: 336903591.634 字节
- 数据文件路径:
soundbible/test-*
UrbanSound8K
- 特征:
audio
: 音频数据,采样率为 16000messages
: 包含内容和角色的消息列表content
: 字符串类型role
: 字符串类型
- 分割:
train
: 训练集num_bytes
: 6716881462.413988 字节num_examples
: 8273 个样本
- 下载大小: 6935389627 字节
- 数据集大小: 6716881462.413988 字节
- 数据文件路径:
urbansound8K/train-*

rag-datasets/rag-mini-bioasq
该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。
hugging_face 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录