sound-of-water
收藏Hugging Face2024-11-17 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/bpiyush/sound-of-water
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含805个清洁视频,展示了将水倒入容器中的动作。数据集涵盖了50个独特容器,由5种不同材料制成,具有4种不同形状,并使用冷热水。数据集分为四个部分用于训练和测试,每个部分具有特定的特征。注释包括容器的元数据、液体和材料的信息,以及容器的边界框。数据集还包括从YouTube获取的样本,用于定性评估。
This dataset contains 805 clean videos demonstrating the action of pouring water into containers. It covers 50 unique containers fabricated from 5 distinct materials and available in 4 different shapes, and utilizes both cold and hot water. The dataset is divided into four partitions for training and testing, each with specific characteristics. Annotations include container metadata, information about the liquid and materials, as well as the bounding boxes of the containers. Additionally, the dataset includes samples obtained from YouTube for qualitative evaluation.
创建时间:
2024-11-17
原始信息汇总
Sound-of-Water 50 数据集概述
数据集基本信息
- 任务类别:
- 音频分类
- 文本到视频
- 语言:
- 英语
- 标签:
- 视听
- 物理属性
- 音高估计
- 数据集名称: Sound-of-Water 50
- 数据集大小: n<1K
数据集配置
- 配置名称: default
- 数据文件:
- 训练集:
splits/train.csv - 测试集I:
splits/test_I.csv - 测试集II:
splits/test_II.csv - 测试集III:
splits/test_III.csv
- 训练集:
数据集概述
- 视频数量: 805个
- 容器数量: 50个独特容器
- 容器材料: 5种不同材料
- 容器形状: 4种不同形状
- 液体类型: 热水和冷水
数据集结构
sh SoundOfWater/ |-- annotations |-- assets |-- audios |-- README.md |-- splits |-- videos `-- youtube_samples
数据集分割
- 训练集:
- 透明容器
- 18个容器
- 195个视频
- 测试集I:
- 透明容器
- 13个容器
- 54个视频
- 测试集II:
- 不透明容器
- 19个容器
- 327个视频
- 测试集III:
- 透明和不透明容器
- 25个容器
- 434个视频
数据集标注
- 容器测量和其他元数据:
localisation.csv: 每个视频的元数据containers.yaml: 每个容器的元数据liquids.yaml: 每种液体的元数据materials.yaml: 每种材料的元数据
- 容器边界框:
./annotations/container_bboxes/
引用
bibtex @article{sound_of_water_bagad, title={The Sound of Water: Inferring Physical Properties from Pouring Liquids}, author={Bagad, Piyush and Tapaswi, Makarand and Snoek, Cees G. M. and Zisserman, Andrew}, journal={arXiv}, year={2024} }
搜集汇总
数据集介绍

构建方式
Sound-of-Water数据集的构建基于对倒水动作的音频和视频数据的系统采集。研究团队通过录制805段清晰的倒水视频,涵盖了50种不同容器,涉及5种材料、4种形状以及不同温度的水。视频和音频数据经过精确的裁剪,确保仅包含倒水动作的关键片段。此外,数据集还包含了详细的元数据,如容器的尺寸、材料、形状等信息,这些数据通过手动标注和自动化工具(如LangSAM)生成。
使用方法
Sound-of-Water数据集的使用方法主要包括音频分类和文本到视频生成等任务。用户可以通过Hugging Face平台下载数据集,并利用提供的代码示例进行数据处理和模型训练。数据集的结构清晰,包含视频、音频、注释和分割文件,便于用户快速上手。此外,研究团队还提供了在线演示,用户可以通过上传倒水视频,实时获取音高和物理属性的预测结果。数据集的使用不仅限于学术研究,还可应用于工业场景中的液体属性检测和容器设计优化。
背景与挑战
背景概述
Sound-of-Water 50数据集由Piyush Bagad等研究人员于2024年创建,旨在通过倒水声音推断液体的物理属性。该数据集包含805个清晰的视频,展示了在不同容器中倒水的动作,涵盖了50种独特容器、5种材料和4种形状。研究团队通过理论分析和实验验证,展示了如何利用声音的基频变化来推导容器的物理属性,如高度和流速。该数据集不仅推动了音频分类和文本到视频生成领域的发展,还为物理属性推断提供了新的研究视角。
当前挑战
Sound-of-Water 50数据集在解决液体物理属性推断问题时面临多重挑战。首先,音频信号的复杂性和环境噪声的干扰使得基频的精确提取变得困难。其次,不同容器材料和形状对声音的影响需要细致的建模和分析。在数据集构建过程中,研究人员还需确保视频和音频样本的同步性,并精确标注容器的物理参数。此外,数据集的规模相对较小,可能限制了模型在更广泛场景中的泛化能力。这些挑战为未来的研究提供了重要的改进方向。
常用场景
经典使用场景
在音频分类和文本到视频生成领域,Sound-of-Water数据集被广泛应用于研究液体倾倒过程中声音与物理属性之间的关系。通过分析倾倒水的声音,研究者能够推断出容器的尺寸、形状以及液体的流量等物理特性。这一数据集为音频信号处理和物理属性推断提供了丰富的实验数据,尤其在模拟和真实数据的结合训练中表现出色。
解决学术问题
Sound-of-Water数据集解决了从声音信号中推断物理属性的学术难题。通过理论分析和实验验证,研究者证明了音调变化与容器高度、流量等物理属性之间的关联性。该数据集不仅为音频信号处理提供了新的研究方向,还为物理属性的自动推断提供了可靠的数据支持,推动了跨学科研究的深入发展。
实际应用
在实际应用中,Sound-of-Water数据集被用于开发智能系统,如自动液体检测和容器识别。通过分析倾倒液体的声音,系统能够实时监测液体的流量和容器的状态,广泛应用于工业生产、智能家居和医疗设备等领域。这一技术不仅提高了自动化水平,还为液体管理提供了新的解决方案。
数据集最近研究
最新研究方向
在音频与视觉交叉领域,Sound-of-Water数据集为液体物理属性的推断提供了新的研究方向。通过分析倒水声音的频率变化,研究者能够预测容器的尺寸、流速等物理特性。这一方法不仅深化了音频分类与文本到视频生成的应用,还为物理属性的无接触测量开辟了新的途径。数据集中的音频和视频样本,结合先进的音高检测网络(如wav2vec2),展示了在模拟和真实数据上训练模型的高精度预测能力。此外,该数据集的研究还揭示了潜在表示中关于液体质量和容器形状的信息,为未来的多模态学习提供了丰富的实验基础。
以上内容由遇见数据集搜集并总结生成



