zjs555888/DogSpeak_Dataset

Name: zjs555888/DogSpeak_Dataset
Creator: zjs555888
Published: 2026-04-25 10:01:41
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/zjs555888/DogSpeak_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DogSpeak是一个大规模、野外采集的犬类发声数据集，旨在推动动物通信和计算生物声学的研究。与以往在受控环境中记录的数据集不同，DogSpeak来源于数万个社交媒体视频，捕捉了各种自然、有机的互动。该数据集包含77,202个犬吠序列（称为Barkseqs），来自156只不同个体的狗，涵盖5个品种：吉娃娃、德国牧羊犬、哈士奇、比特犬和柴犬。数据集组织为简单的目录结构，每个狗的音频剪辑位于以dog_id命名的文件夹中，所有音频文件均为.wav格式。由于存储限制，原始dog_7文件夹被拆分为两个子目录dog_7a和dog_7b。元数据文件metadata.csv提供了每个音频剪辑的关键信息，包括文件名、品种、性别和狗的唯一ID。

DogSpeak is a large-scale, in-the-wild canine vocalization dataset designed to advance research in animal communication and computational bioacoustics. Unlike previous datasets recorded in controlled environments, DogSpeak is sourced from tens of thousands of online social media videos, capturing a wide array of natural, organic interactions. The dataset contains 77,202 bark sequences (referred to as Barkseqs) from 156 individual dogs across 5 breeds: Chihuahua, German Shepherd, Husky, Pitbull, and Shiba Inu. The dataset is organized into a simple directory structure where each dogs audio clips are located in a folder named with a sequential dog_id. All audio files are in .wav format. Due to a repository limit, the original dog_7 folder was split into two subdirectories: dog_7a and dog_7b. The metadata.csv file provides key information for each audio clip, including filename, breed, sex, and dog_id.

提供机构：

zjs555888

搜集汇总

数据集介绍

构建方式

在动物交流与计算生物声学领域，真实环境下的犬类发声数据长期匮乏。为突破这一瓶颈，DogSpeak数据集应运而生，其构建方式独辟蹊径，从数以万计的在线社交媒体视频中采集音频，摒弃了传统受控实验的局限。通过严苛的筛选与标准化流程，最终获取了77,202段高质量吠叫序列（即Barkseqs），涵盖5个常见品种（吉娃娃、德国牧羊犬、哈士奇、比特犬与柴犬）共156只个体。数据以结构化目录保存，每只犬的音频置于以唯一dog_id命名的文件夹中，文件为.wav格式。由于单文件夹上传限制，个别数据量庞大的文件夹被合理拆分为子目录，确保数据完整性与易用性。同时，附带的metadata.csv文件为每条音频提供了文件名、品种、性别及个体ID等关键元信息，极大便利了后续研究。

特点

DogSpeak数据集的核心特点在于其真实世界（in-the-wild）属性，这使其在同类数据集中独树一帜。与实验室环境下的纯净录音不同，本数据集直接源自日常社交视频，天然包含了背景噪声、多源干扰与声音变异，高度还原了犬类发声的真实生态。这种内在的复杂性与非平稳特性，对现有的生物声学模型构成了严峻挑战，恰成为推动模型鲁棒性提升的理想试验场。此外，数据集规模庞大，跨越多个品种与个体，性别信息亦被完整保留，为探究品种间声学差异、个体特征识别及性别相关的发声模式提供了坚实的数据基础，开辟了从微观声学到宏观行为学的广阔研究视角。

使用方法

使用DogSpeak数据集时，研究者可直接从HuggingFace平台下载完整文件结构，无需额外预处理。初学者可基于提供的metadata.csv快速构建分类任务，例如根据‘breed’字段进行犬种识别，或利用‘sex’信息研究性别判别模型。对于进阶应用，可提取音频的梅尔频谱、MFCC等声学特征，训练深度学习架构（如CNN、ResNet或Transformer）以捕捉吠叫序列的时序模式与频域特性。需要注意的是，数据采用CC BY-NC-SA 4.0协议，仅限非商业用途，且使用时应引用原始论文以尊重学术贡献。此外，由于音频来源于真实场景，建议在模型评估时采用跨个体或跨品种的验证策略，以客观衡量模型的泛化能力，从而在动物行为分析与计算生物声学交叉领域取得可靠结论。

背景与挑战

背景概述

犬类发声研究是计算生物声学与动物行为学交叉领域的重要课题，其核心在于通过机器学习方法解析非人类物种的声学信号，为理解动物情感状态、个体差异及种间交流提供数据驱动视角。2025年，由Hridayesh Lekhak、Theron S. Wang、Tuan M. Dang和Kenny Q. Zhu等研究人员于ACM国际多媒体会议（MM '25）发布的DogSpeak数据集，旨在突破传统受控环境录制的局限，聚焦于真实世界场景中的犬类叫声分类。该数据集从数万段社交媒体视频中提取出77,202条叫声序列，涵盖五个常见犬种（吉娃娃、德国牧羊犬、哈士奇、比特犬、柴犬），共156只个体，为开发能应对环境噪声与变异性的鲁棒生物声学模型奠定了规模化、多样化的数据基础，显著推动了动物交流领域的计算研究进程。

当前挑战

该数据集面临的挑战首先体现在领域问题的解决上：现有模型多基于实验室条件的声音样本，难以泛化至真实世界中存在背景噪声、声场混叠与个体差异的“野外”录音，DogSpeak旨在训练能克服此类变异性并实现跨个体、跨场景的精确犬种与个体识别系统。其次，构建过程中遭遇了重重困难：从海量社交媒体视频中自动筛选纯净叫声需处理音频截取算法的误检与漏检；元数据依赖人工校验以确保性别、犬种标签的准确性；此外，单一犬类文件夹因文件数量超限（逾11,000条）被迫分割为子目录，反映出大规模非结构化数据存储与标准化管理的现实瓶颈。

常用场景

经典使用场景

在计算生物声学与动物行为研究的交叉领域中，犬类发声数据的匮乏长期制约着该方向的深入探索。DogSpeak数据集凭借其大规模、来源自然的特性，为研究者提供了跨越五个品种、涵盖七万余条真实吠叫片段的珍贵资源。经典的使用场景聚焦于构建鲁棒的犬吠分类与识别系统，例如基于深度学习的品种识别、个体身份鉴定以及发声情境分析。研究者能够利用该数据集训练模型，从嘈杂的现实录音中提取有效的声学特征，从而推动动物发声自动理解技术的发展。

解决学术问题

该数据集有力地回应了生物声学研究中两大核心难题：其一，打破了传统数据集仅关注受控实验室环境的局限，以真实社交视频为数据源，引入了现实世界中的背景噪声、音质差异与情境多样性，为评估模型的泛化能力提供了严苛的测试基准；其二，填补了跨品种犬类发声比较研究的空白，支持对品种特有声学模式的量化分析。其意义在于为探索动物交流的神经机制、演化规律及情感表达开辟了新的计算路径，显著提升了非人类物种发声行为建模的可信度与可推广性。

衍生相关工作

DogSpeak数据集的发布催生了一系列富有启发性的后续研究。受其启发，研究者开始探索跨物种发声对比分析，将犬类声学特征与狼、狐狸等近缘物种进行比对，揭示进化保守性与适应性塑造的声学差异。同时，该数据集推动了自监督学习与域适应技术在生物声学领域的应用，促进模型在标签稀缺场景下的特征学习。在语音与音频处理领域，基于犬吠的声学预训练模型也逐渐涌现，为更广泛的动物声音理解任务搭建了桥梁，并衍生出细粒度发声单元分割和多模态行为关联分析等前沿课题。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集