EarSAVAS Dataset
收藏数据集概述:EarSAVAS
数据集描述
数据集内容
- 名称: EarSAVAS
- 目的: 用于在耳戴设备上进行主题感知的人类语音活动感知
- 数据量: 包含44.5小时的同步音频和运动数据
- 参与者数量: 42人
- 语音活动类型: 8种
- 音频数据: 来自主动降噪耳戴设备的正向和反馈麦克风,采样率为16kHz
- IMU数据: 包括3轴加速度计数据流和3轴陀螺仪数据流,采样率为100Hz
数据集结构
EarSAVAS_Dataset/
├── cutted_data/
│ ├── user_6_1 # 特定用户的数据
│ │ ├── audio/ # 特定用户的音频数据
│ │ │ ├── Cough # 咳嗽事件的音频数据
│ │ │ ├── Speech # 语音事件的音频数据
│ │ │ ├── Cough_non_subject # 非主题咳嗽事件的音频数据
│ │ │ ├── Speech_non_subject # 非主题语音事件的音频数据
│ │ └── imu/ # 特定用户的运动数据
│ │ ├── Cough # 咳嗽事件的运动数据
│ │ │ ├── user_6_1_1.pkl # IMU数据文件
│ │ │ ├── user_6_1_3.pkl
│ │ ├── Speech # 语音事件的运动数据
│ │ ├── Cough_non_subject # 非主题咳嗽事件的运动数据
│ │ ├── Speech_non_subject # 非主题语音事件的运动数据
│ ├── user_15_1
│ ├── user_14_1
│ ├── user_12_2
│ ├── user_7_2
│ ├── user_25_1
│ ├── user_4_2
│ ├── user_3_1
│ └── ...
├── raw_data # 未按标注分割的原始音频和IMU数据
├── annotation_files # 包含每个事件开始和结束时间的标注文件
├── split_channel_cutted_data # 便于在Kaggle平台上听切分音频片段的反馈和前向音频通道差异
└── split_channel_raw_audio_data # 便于在Kaggle平台上听每个用户的原始音频文件的反馈和前向音频通道差异
数据集评估
环境设置与数据准备
- Python版本: 3.8
- 数据下载: 从Kaggle下载
- 数据准备脚本:
prep_data.py和SAMoSA_data_prepare.py
模型训练与评估
- 训练脚本:
EarVAS_main.py - 评估脚本:
EarVAS_evaluation.py - 模型任务选项: [two_channel_audio_and_imu, two_channel_audio, feedforward_audio, feedback_audio, imu_only, feedback_audio_and_imu, feedforward_audio_and_imu]
- 设备选项: [cpu, cuda]
分类性能
- 二分类: 区分主题语音活动与干扰事件
- 多分类: 细粒度主题感知语音活动识别性能
引用信息
@article{10.1145/3659616, author = {Zhang, Xiyuxing and Wang, Yuntao and Han, Yuxuan and Liang, Chen and Chatterjee, Ishan and Tang, Jiankai and Yi, Xin and Patel, Shwetak and Shi, Yuanchun}, title = {The EarSAVAS Dataset: Enabling Subject-Aware Vocal Activity Sensing on Earables}, year = {2024}, issue_date = {May 2024}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, volume = {8}, number = {2}, url = {https://doi.org/10.1145/3659616}, doi = {10.1145/3659616}, journal = {Proc. ACM Interact. Mob. Wearable Ubiquitous Technol.}, month = {may}, articleno = {83}, numpages = {26}, keywords = {Active Noise Cancelling Earables, Dataset, Deep Learning, Human Vocal Activity Recognition, Subject Awareness} }




