five

EarSAVAS Dataset

收藏
github2024-05-16 更新2024-05-31 收录
下载链接:
https://github.com/thuhci/EarSAVAS
下载链接
链接失效反馈
官方服务:
资源简介:
EarSAVAS是一个公开的多模态数据集,专为耳戴设备上的主体感知人类语音活动传感而设计,包含从42名参与者收集的44.5小时同步音频和运动数据,涵盖8种不同类型的人类语音活动。音频数据包括主动降噪耳戴设备的正向和反馈麦克风,采样率为16kHz。IMU数据包括3轴加速度计数据流和3轴陀螺仪数据流,采样率为100Hz。

EarSAVAS系一公开的多模态数据集,旨在为耳戴设备上的主体感知人类语音活动传感而量身定制。该数据集汇聚了42名参与者提供的共计44.5小时的同步音频与运动数据,涵盖8种不同类型的人类语音活动。音频数据涉及主动降噪耳戴设备的正向与反馈麦克风,采样频率为16kHz。IMU数据则包括3轴加速度计与3轴陀螺仪的数据流,采样频率为100Hz。
创建时间:
2024-04-18
原始信息汇总

数据集概述:EarSAVAS

数据集描述

数据集内容

  • 名称: EarSAVAS
  • 目的: 用于在耳戴设备上进行主题感知的人类语音活动感知
  • 数据量: 包含44.5小时的同步音频和运动数据
  • 参与者数量: 42人
  • 语音活动类型: 8种
  • 音频数据: 来自主动降噪耳戴设备的正向和反馈麦克风,采样率为16kHz
  • IMU数据: 包括3轴加速度计数据流和3轴陀螺仪数据流,采样率为100Hz

数据集结构

EarSAVAS_Dataset/ ├── cutted_data/ │ ├── user_6_1 # 特定用户的数据 │ │ ├── audio/ # 特定用户的音频数据 │ │ │ ├── Cough # 咳嗽事件的音频数据 │ │ │ ├── Speech # 语音事件的音频数据 │ │ │ ├── Cough_non_subject # 非主题咳嗽事件的音频数据 │ │ │ ├── Speech_non_subject # 非主题语音事件的音频数据 │ │ └── imu/ # 特定用户的运动数据 │ │ ├── Cough # 咳嗽事件的运动数据 │ │ │ ├── user_6_1_1.pkl # IMU数据文件 │ │ │ ├── user_6_1_3.pkl │ │ ├── Speech # 语音事件的运动数据 │ │ ├── Cough_non_subject # 非主题咳嗽事件的运动数据 │ │ ├── Speech_non_subject # 非主题语音事件的运动数据 │ ├── user_15_1 │ ├── user_14_1
│ ├── user_12_2
│ ├── user_7_2
│ ├── user_25_1
│ ├── user_4_2
│ ├── user_3_1 │ └── ... ├── raw_data # 未按标注分割的原始音频和IMU数据 ├── annotation_files # 包含每个事件开始和结束时间的标注文件 ├── split_channel_cutted_data # 便于在Kaggle平台上听切分音频片段的反馈和前向音频通道差异 └── split_channel_raw_audio_data # 便于在Kaggle平台上听每个用户的原始音频文件的反馈和前向音频通道差异

数据集评估

环境设置与数据准备

  • Python版本: 3.8
  • 数据下载: 从Kaggle下载
  • 数据准备脚本: prep_data.pySAMoSA_data_prepare.py

模型训练与评估

  • 训练脚本: EarVAS_main.py
  • 评估脚本: EarVAS_evaluation.py
  • 模型任务选项: [two_channel_audio_and_imu, two_channel_audio, feedforward_audio, feedback_audio, imu_only, feedback_audio_and_imu, feedforward_audio_and_imu]
  • 设备选项: [cpu, cuda]

分类性能

  • 二分类: 区分主题语音活动与干扰事件
  • 多分类: 细粒度主题感知语音活动识别性能

引用信息

@article{10.1145/3659616, author = {Zhang, Xiyuxing and Wang, Yuntao and Han, Yuxuan and Liang, Chen and Chatterjee, Ishan and Tang, Jiankai and Yi, Xin and Patel, Shwetak and Shi, Yuanchun}, title = {The EarSAVAS Dataset: Enabling Subject-Aware Vocal Activity Sensing on Earables}, year = {2024}, issue_date = {May 2024}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, volume = {8}, number = {2}, url = {https://doi.org/10.1145/3659616}, doi = {10.1145/3659616}, journal = {Proc. ACM Interact. Mob. Wearable Ubiquitous Technol.}, month = {may}, articleno = {83}, numpages = {26}, keywords = {Active Noise Cancelling Earables, Dataset, Deep Learning, Human Vocal Activity Recognition, Subject Awareness} }

搜集汇总
数据集介绍
main_image_url
构建方式
EarSAVAS数据集通过精心设计的实验流程构建,旨在实现基于耳戴设备的主题感知语音活动检测。该数据集收集了来自42名参与者的44.5小时同步音频和运动数据,涵盖8种不同的人类语音活动。音频数据包括前馈和反馈麦克风的录音,采样率为16kHz;运动数据则包括3轴加速度计和3轴陀螺仪的数据,采样率为100Hz。数据集的构建过程中,定义了‘活动块’作为基本单元,参与者在其中执行一系列具有相同顺序和频率的活动,确保数据的多样性和代表性。
特点
EarSAVAS数据集的主要特点在于其多模态数据的同步性和主题感知的精细分类。数据集不仅包含来自同一参与者的语音活动数据,还包含来自其他参与者的干扰事件数据,从而能够有效评估模型在复杂环境中的表现。此外,数据集的结构设计使得音频和运动数据的对应关系清晰,便于进行多模态融合分析。数据集的多样性和规模使其成为研究耳戴设备语音活动检测的理想资源。
使用方法
使用EarSAVAS数据集进行研究时,首先需从Kaggle平台下载数据,并根据提供的脚本进行数据预处理。用户可以通过设置不同的任务类型和输入模态来训练和评估模型,如EarVAS和SAMoSA等基准模型。数据集支持多种任务,包括二分类和多分类的语音活动识别。通过运行相应的训练和评估脚本,用户可以轻松地在本地环境中进行实验,并根据实验结果调整模型参数,以实现最佳性能。
背景与挑战
背景概述
EarSAVAS数据集是由清华大学等机构的研究人员于2024年创建的,旨在推动耳戴式设备上的人类语音活动感知研究。该数据集包含了44.5小时的同步音频和运动数据,采集自42名参与者,涵盖8种不同类型的人类语音活动。其核心研究问题是通过多模态数据(音频和惯性测量单元数据)实现对个体语音活动的精准识别。EarSAVAS数据集的发布不仅为语音活动识别领域提供了丰富的资源,还为耳戴式设备的智能化应用提供了新的研究方向,具有重要的学术和应用价值。
当前挑战
EarSAVAS数据集在构建过程中面临多项挑战。首先,如何在复杂的背景噪声和多用户交互环境中准确区分目标用户的语音活动,是一个技术难点。其次,数据采集过程中需要确保音频和运动数据的同步性,这对数据处理和标注提出了高要求。此外,数据集的多模态特性要求模型能够有效融合音频和IMU数据,以提升识别精度。最后,如何在有限的设备资源下实现高效的模型训练和推理,也是该数据集应用中的一个重要挑战。
常用场景
经典使用场景
EarSAVAS数据集的经典使用场景主要集中在基于耳戴设备的主题感知语音活动识别。通过同步采集的音频和运动数据,研究人员可以训练和评估模型,以区分不同类型的语音活动,如咳嗽和说话。这些模型能够识别来自佩戴者的语音活动,同时过滤掉来自其他人的干扰信号,从而实现高精度的主题感知语音活动检测。
解决学术问题
EarSAVAS数据集解决了在耳戴设备上进行主题感知语音活动识别的关键学术问题。传统的语音活动检测方法通常无法区分佩戴者与其他人的语音活动,而EarSAVAS通过多模态数据集的构建,使得研究人员能够开发出能够精确识别佩戴者语音活动的模型。这一进展不仅推动了语音识别技术的发展,还为个性化健康监测和隐私保护提供了新的研究方向。
衍生相关工作
EarSAVAS数据集的发布催生了一系列相关的经典工作,特别是在多模态数据融合和深度学习领域。研究人员利用该数据集开发了多种模型,如EarVAS和SAMoSA,这些模型在语音活动识别任务中表现出色。此外,该数据集还激发了对耳戴设备在健康监测和隐私保护方面应用的深入研究,推动了相关技术的快速发展和创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作