five

confit/wmms-demo

收藏
Hugging Face2024-03-26 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/confit/wmms-demo
下载链接
链接失效反馈
官方服务:
资源简介:
Watkins Marine Mammal Sound (WMMS) Database 是一个包含32种海洋哺乳动物声音的数据集。每种声音文件都有对应的物种名称和标签。数据集分为训练集和测试集,训练集包含1357个样本,测试集包含340个样本。音频文件的采样率为16000Hz。该数据集主要用于音频分类任务,标签为多类别分类。

Watkins Marine Mammal Sound (WMMS) Database 是一个包含32种海洋哺乳动物声音的数据集。每种声音文件都有对应的物种名称和标签。数据集分为训练集和测试集,训练集包含1357个样本,测试集包含340个样本。音频文件的采样率为16000Hz。该数据集主要用于音频分类任务,标签为多类别分类。
提供机构:
confit
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • audio: 音频数据,采样率为16000 Hz。
    • species: 物种名称,数据类型为字符串。
    • label: 分类标签,包含32个类别名称。
  • 分割:

    • train: 训练集,包含1357个样本,大小为1179470284字节。
    • test: 测试集,包含340个样本,大小为154350686字节。
  • 大小:

    • 下载大小: 1217429434字节。
    • 数据集大小: 1333820970字节。

配置

  • 默认配置:
    • 训练集路径: data/train-*
    • 测试集路径: data/test-*

任务类别

  • 音频分类

标签

  • 多类别分类

数据集大小类别

  • 1K<n<10K
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建,是基于Watkins Marine Mammal Sound (WMMS) Database的音频档案,涵盖了32种海洋哺乳动物的叫声记录。数据集通过精心挑选,将音频文件及其对应的物种标签和分类标签进行整合,形成了训练集和测试集的划分,其中训练集包含1357个样本,测试集包含340个样本,旨在为音频分类任务提供标准化的数据资源。
特点
数据集的主要特点在于其音频样本的多样性和物种分类的全面性。音频文件的采样率为16000Hz,确保了音频质量。此外,数据集包含了丰富的海洋哺乳动物种类,从常见的海豚和鲸鱼到较为罕见的北极熊和海豹,使得该数据集在多类别的音频识别研究中具有较高的应用价值。其标注的准确性亦为研究提供了可靠的基础。
使用方法
用户可以通过HuggingFace的dataset库方便地加载和使用该数据集。数据集以默认配置提供,分别加载训练集和测试集的路径。用户在获得数据集后,可以直接用于音频分类模型的训练和评估,也可以根据需要进一步处理和探索数据集,以适应特定的研究目的或应用场景。
背景与挑战
背景概述
Watkins Marine Mammal Sound (WMMS) Database,简称confit/wmms-demo,是由Woods Hole Oceanographic Institution与New Bedford Whaling Museum联合创建的海洋哺乳动物声音数据库。该数据库的创建旨在为海洋生物研究提供丰富的声学数据资源,收录了32种海洋哺乳动物的声音档案,跨越多种物种,如 Atlantic Spotted Dolphin、Humpback Whale 等。自数据库构建以来,其在海洋生物声学研究领域产生了广泛影响,为研究人员提供了宝贵的声学样本,推动了海洋哺乳动物行为、生态等领域的研究进展。
当前挑战
在领域问题上,WMMS数据集面临的挑战主要在于音频分类的准确性,特别是在不同种类的海洋哺乳动物声音辨识上。构建过程中遇到的挑战包括:1) 数据标注的准确性,由于海洋哺乳动物声音的复杂性和多样性,标注过程中存在一定的困难;2) 数据集的规模限制,尽管包含了大量的声音样本,但相对于图像等其他类型的数据集,其样本量仍有限;3) 噪声干扰问题,海洋环境中的噪声可能会对声音样本的识别造成影响。
常用场景
经典使用场景
在音频识别领域,confit/wmms-demo数据集的典型应用场景在于对海洋哺乳动物声音的自动分类。该数据集提供了32种海洋哺乳动物的音频样本,通过这些样本,研究人员能够训练机器学习模型,以实现对海洋生物发声的准确识别与分类,进而为海洋生态保护提供技术支持。
解决学术问题
该数据集有效解决了海洋哺乳动物分类研究中样本稀缺与标注困难的问题,为海洋生物声学研究提供了丰富的标注数据。它的应用极大地推动了海洋生态学、生物声学和机器学习等领域的研究进展,对海洋环境保护和生物多样性研究具有深远影响。
衍生相关工作
基于confit/wmms-demo数据集,学术界已衍生出众多研究工作,包括但不限于海洋哺乳动物发声特征分析、声音识别算法改进、以及海洋环境噪声影响评估等,这些研究进一步拓宽了该数据集的应用领域,丰富了相关学科的研究内容。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作