five

laser-vibrations

收藏
Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/eturok-weizmann/laser-vibrations
下载链接
链接失效反馈
官方服务:
资源简介:
Laser Vibrations 是一个用于通过激光散斑振动记录定位纸板箱内隐藏物体的多模态数据集。该数据集通过10×10的激光网格照射箱子侧面,当扬声器激发箱子振动时,每个激光点的散斑图案会随局部表面振动产生位移。核心任务是通过振动信号单独重建箱内物体的形状和位置。数据集包含图像数据(带分割掩码的俯视图)、视频数据(激光散斑振动慢动作预览)、音频数据(重建的振动信号和激励信号)和结构化元数据(JSON格式)。关键特征字段包括样本ID、实验ID、物体类型、数量及位置信息、箱体材料、扬声器激活状态、分割掩码中心坐标和各类媒体文件路径。文件结构中,每个样本有独立目录存放原始振动帧、处理后数据及预览文件,共享的激励音频和俯视图图像集中存放。适用任务包括振动信号分析、物体检测与定位以及多模态传感器融合研究。数据集还包含详细的实验配置和处理参数记录(曝光时间、采样率、滤波器设置等),适合计算机视觉、信号处理和物理感知交叉领域的研究。

Laser Vibrations is a multimodal dataset designed for localizing hidden objects within cardboard boxes through laser speckle vibration recordings. The dataset employs a 10×10 laser grid projected onto the boxs side surface, where the speckle pattern of each laser point undergoes displacement due to local surface vibrations when excited by a speaker. The core objective is to reconstruct the shape and position of concealed objects solely from vibration signals. The dataset includes image data (top-view with segmentation masks), video data (slow-motion previews of laser speckle vibrations), audio data (reconstructed vibration signals and excitation signals), and structured metadata (in JSON format). Key feature fields encompass sample ID, experiment ID, object type, quantity and position information, box material, speaker activation status, segmentation mask center coordinates, and paths to various media files. The file structure organizes each sample in a dedicated directory containing raw vibration frames, processed data, and preview files, while shared excitation audio and top-view images are stored centrally. Applicable tasks include vibration signal analysis, object detection and localization, and multimodal sensor fusion research. The dataset also provides detailed experimental configurations and processing parameters (exposure time, sampling rate, filter settings, etc.), making it suitable for interdisciplinary research in computer vision, signal processing, and physical perception.
创建时间:
2026-04-22
原始信息汇总

数据集概述:Laser Vibrations

基本信息

  • 数据集名称:Laser Vibrations
  • 数据集地址https://huggingface.co/datasets/eturok-weizmann/laser-vibrations
  • 任务目标:通过激光散斑振动记录,定位隐藏在纸板箱内的物体。使用10×10激光网格照射纸箱侧面,当扬声器激励纸箱时,每个激光的散斑图案会随局部表面振动而变化,目标是仅凭振动信号重建箱内物体的形状和位置。

数据集结构

列信息(来自 data/metadata.jsonl

列名 类型 描述
sample_id int 样本唯一顺序标识符
segmented_overhead_file_name image 带有分割掩码叠加和扬声器角度注释的顶视照片
speckle_vibrations_file_name video 纸箱振动时激光散斑图案的慢动作预览视频
speckle_shifts_ifft_audio_file_name audio 单个激光点振动信号重建为音频(逆FFT)
audio_file_name audio 录制时通过扬声器播放的共享激励啁啾声
experiment_id string 源目录名称(experiment-15,每次录制唯一)
speakers string 4位扬声器激活码,例如 0001 表示仅扬声器4激活
x_position int 物体网格列索引(0起始)
y_position int 物体网格行索引(0起始)
x_com float 裁剪顶视图像中分割掩码的X质心(像素)
y_com float 裁剪顶视图像中分割掩码的Y质心(像素)
object string 箱内物体类型,例如 cube
n_objects int 箱内物体数量
box_material string 纸箱材料,例如 cardboard
mask_file_name image 裁剪顶视图像中物体的二值分割掩码
experiment_dir string experiment-16目标目录名称
manifest string 该样本的完整JSON清单

文件目录结构

experiment-16/ ├── README.md ├── audio/ │ └── chirp_50_1000_3.0sec.wav # 共享激励啁啾声(50–1000 Hz,3秒) ├── data/ │ ├── metadata.jsonl # 每样本一行JSON(面向查看器) │ ├── 0000001/ # 每样本目录(7位零填充ID) │ │ ├── manifest.json # 完整来源与配置 │ │ ├── speckle_vibration_raw.npy # 原始激光相机帧 [100激光 × T帧 × 2 (XY)] │ │ ├── speckle_shifts.npz # 每激光每帧的亚像素XY位移 │ │ ├── speckle_shifts_clean.npz # 带通滤波+Hann窗后的位移 │ │ ├── speckle_shifts_fft.npz # 清洁位移的FFT(频域) │ │ ├── speckle_shifts_ifft_audio.wav# 单个激光振动重建为音频 │ │ └── speckle_vibrations.mp4 # 散斑运动的慢动作预览视频 │ └── 0000002/ │ └── ... └── image/ └── <image_dir>/ ├── raw_overhead.png # 裁剪前完整顶视照片 ├── cropped_overhead.png # 裁剪到纸箱区域的顶视图 ├── segmented_overhead.png # 带有掩码叠加和扬声器注释的顶视图 ├── mask.png # 二值分割掩码(白色=物体) └── mask.npz # 压缩numpy数组形式的二值掩码

manifest.json 结构

每个样本目录包含 manifest.json,记录完整来源、硬件配置、处理参数和产物路径。metadata.jsonl 中的 manifest 列是该文档序列化为JSON字符串。

顶层键

类型 描述
sample_id int 样本唯一标识符
experiment_id string 源录制目录名称(来自experiment-15)
experiment_dir string 目标目录名称(experiment-16)
source_experiment_id string 规范源引用(同experiment_id
source_experiment_dir string 源目录的绝对NAS路径
hf_repo string 上传此样本的HuggingFace仓库
sample object 录制时的物理设置
segmentation object 顶视图像分割结果
experiment_config object 合并的硬件和录制配置
experiment_output object 处理过程中计算的衍生统计
processing_config object 处理流水线参数
artifacts object 为此样本生成的所有文件的相对仓库路径

sample

类型 描述
object string 箱内物体类型
n_objects int 物体数量
box_material string 纸箱材料
speakers string 4位激活码,例如 0001
x_position int 物体网格列(0起始)
y_position int 物体网格行(0起始)
image_dir string data/image/下的图像子目录名称

segmentation

类型 描述
x_com float 裁剪顶视图像中掩码的X质心(像素)
y_com float 裁剪顶视图像中掩码的Y质心(像素)
status string 分割成功时为 completed

experiment_output 键(关键输出)

类型 描述
laser_grid.sensor_grid_shape list[int] 激光网格尺寸 [行, 列]
speckle_vibrations.frame_count int 捕获的总帧数
speckle_vibrations.capture_fps_hz float 实际激光相机捕获帧率(Hz)
speckle_shifts.fs float 位移信号采样率(Hz)
speckle_shifts.shape list[int] 位移数组形状 [激光数, 帧数, 2]
speckle_shifts_ifft_audio.sample_rate_hz int 重建音频WAV的采样率(Hz)

artifacts 键(数据集产物)

类型 描述
raw_overhead string data/image/<dir>/raw_overhead.png
cropped_overhead string data/image/<dir>/cropped_overhead.png
segmented_overhead string data/image/<dir>/segmented_overhead.png
mask_png string data/image/<dir>/mask.png
mask_npz string data/image/<dir>/mask.npz
audio string data/audio/chirp_50_1000_3.0sec.wav(所有样本共享)
speckle_vibration_raw string data/<id>/speckle_vibration_raw.npy
speckle_vibrations string data/<id>/speckle_vibrations.mp4
speckle_shifts string data/<id>/speckle_shifts.npz
speckle_shifts_clean string data/<id>/speckle_shifts_clean.npz
speckle_shifts_fft string data/<id>/speckle_shifts_fft.npz
speckle_shifts_ifft_audio string data/<id>/speckle_shifts_ifft_audio.wav
manifest string data/<id>/manifest.json
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过精密的实验装置构建,采用一个10×10的激光网格照射纸箱表面,同时利用扬声器激发纸箱振动。每个激光点的散斑图案随局部表面振动而成比例移动,从而捕获振动信号。实验过程中,所有激光散斑振动数据由高速相机记录,并经过子像素位移提取、带通滤波、汉宁窗处理及快速傅里叶变换等流水线加工,最终生成包含原始帧、位移序列、频域特征及重构音频在内的多模态数据。每个样本还配有顶部俯拍图像、目标分割掩码及完整的实验配置元数据,以JSON清单形式存储,确保实验的可追溯性与复用性。
使用方法
数据集以HuggingFace格式发布,主元数据文件metadata.jsonl位于data目录下,每一行对应一个样本,包含样本标识符、图像路径、音频路径及实验参数等关键字段。完整的数据文件按7位零填充ID存放于独立子目录中,涵盖.npy、.npz、.wav、.mp4及.png等多种格式。共享的激励音频文件与俯拍图像分别集中存储于audio与image目录。用户可通过加载metadata.jsonl快速索引样本,并利用manifest.json中记录的采样率、滤波器参数及FFT配置进行一致的预处理。该结构兼容常见的深度学习框架,便于直接用于振动信号分析、物体分类与定位等下游任务的模型训练与评估。
背景与挑战
背景概述
激光散斑振动数据集(Laser-Vibrations Dataset)于2024年由研究团队创建,旨在通过非接触式光学手段解决密闭容器内隐匿物体的定位与形态重建问题。该数据集利用10×10激光阵列照射纸箱表面,当扬声器激励箱体产生振动时,每个激光点的散斑图案随局部表面振动发生亚像素级位移,从而将物体内部结构信息编码为时变光学信号。其核心研究问题在于从激光散斑振动信号中逆向推断盒内物体的形状与空间位置,为声光耦合感知、非视距成像及智能检测等领域提供了全新的数据范式。该数据集凭借精巧的物理实验设计、多模态数据融合(包含图像、视频、音频与结构化元数据)以及系统化的处理管线,对推动基于振动信号的视觉感知研究具有开创性意义。
当前挑战
该数据集所解决的领域问题面临多重挑战:首先,纸箱对振动信号的散射与衰减导致激光散斑位移幅度微弱,信噪比极低,需通过亚像素跟踪算法从高帧率相机帧序列中提取可靠位移场;其次,不同物体材质、尺寸及空间位置引发的振动模态差异极大,要求模型具备跨样本泛化能力。构建过程中,研究团队需协调10×10激光阵列的标定、多路扬声器激励编码、高速相机与音频系统的同步时序,以及超过700帧/秒的激光相机数据流实时存储;此外,每个样本包含原始帧、位移矩阵、滤波信号、频域变换及音频重建等多层级产物,数据量庞大且处理管线复杂,例如通过巴特沃斯带通滤波去除机械噪声并应用汉宁窗抑制频谱泄漏,需确保各处理环节的参数一致性以维持数据集的可复现性。
常用场景
经典使用场景
该数据集最经典的使用场景是面向非视距(Non-Line-of-Sight, NLoS)感知的研究。在计算机视觉与声学交叉领域,研究者利用激光散斑振动记录,通过分析纸箱表面因内部物体振动而产生的微小位移,逆向推断箱内隐蔽物体的形状与位置。数据集中包含了从10×10激光网格采集的亚像素级散斑位移信号,以及对应的真实物体类型、位置坐标和分割掩码,为监督学习与信号处理模型提供了高质量的标注样本。
解决学术问题
该数据集系统性地解决了‘如何利用表面振动信号实现密闭容器内物体定位与识别’这一学术难题。传统光学成像受限于视线遮挡,而声学方法往往受限于环境噪声。该数据集联合了激光散斑干涉、亚像素位移估计与频域分析策略,提供了从原始激光帧到重构音频的完整处理链条,支撑了多模态特征融合、盲源分离以及空间映射等关键技术的研究,显著推动了非侵入式智能感知领域的理论进步。
实际应用
在实际应用中,该数据集衍生的技术可部署于安防检测场景,例如在不打开快递包裹或包装箱的条件下,实现疑似危险品或违禁物的无接触筛查。在其他工业场景中,该技术亦可用于密封容器的内部结构完整性评估,或是老旧建筑中墙壁后方的管线或障碍物探测,从而避免破坏性探查所带来的额外成本与风险,为无损检测提供了低成本、高效能的非光学替代方案。
数据集最近研究
最新研究方向
该数据集聚焦于通过激光散斑振动信号实现非侵入式隐蔽目标感知,代表了计算机视觉与声学传感交叉领域的前沿探索。近期研究热点在于利用100路激光阵列捕获纸箱表面微振动,结合亚像素位移分析与频域变换,从振动模态中逆向重构内部物体的形状与位置。这一方向为穿透性感知提供了全新范式,尤其在安检、包裹检测及工业无损评估中具有变革性意义,推动了对传统视觉遮挡场景下物理信息挖掘能力的边界拓展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作