SpeechWellness Challenge Dataset

github2025-02-09 更新2025-02-10 收录

下载链接：

https://github.com/speechwellness/SpeechWellness-1_Baseline

下载链接

链接失效反馈

官方服务：

资源简介：

用于检测青少年自杀风险的SpeechWellness挑战数据集。

The SpeechWellness Challenge Dataset for detecting adolescent suicide risk.

创建时间：

2025-01-12

原始信息汇总

Baseline for the 1st SpeechWellness Challenge

数据集概述

挑战名称：第1届SpeechWellness挑战
数据集用途：用于检测青少年自杀风险的基准数据集和实现

基准结果和参考文献

基准模型：wav2vec 2.0 + BERT
测试集准确率：0.61
混淆矩阵：

Predicted: No Risk Predicted: At Risk

Actual: No Risk 31 19

Actual: At Risk 20 30
挑战论文：挑战论文链接

测试结果提交

提交格式：JSON文件，格式为字典结构：{id: prediction}
示例文件：sample.json

代码使用

开发语言：Python 3.10
依赖安装：pip install -r requirements.txt
文件结构： plaintext ├── audio # W2V2模型微调和特征提取脚本 ├── text # BERT模型微调和特征提取脚本 ├── combine # 分类训练脚本 ├── egemaps # eGeMAPS提取和SVM分类脚本 ├── preprocess
│ ├── json_prepare.py # csv -> json │ └── transcribe.py # ASR ├── metric_compute.py # 计算指标 ├── soft_vote.py # W2V2+BERT软投票 ├── vote.py # eGeMAPS+SVM投票 ├── sample.json # 测试结果提交示例 └── requirements.txt # 依赖
运行步骤：
1. 重新组织音频文件：按照语音任务将音频文件整理为audio/{task}/{wav_file}结构
2. 预处理：运行python preprocess/json_prepare.py生成训练所需的JSON文件，运行python preprocess/transcribe.py进行ASR
3. 训练：运行bash {audio/text/combine}/train.sh开始训练
注意事项：运行脚本前，确保更新代码中的文件路径以匹配本地存储路径

引用

引用论文： bibtex @article{wu20251stspeechwellnesschallengedetecting, title={The 1st SpeechWellness Challenge: Detecting Suicidal Risk Among Adolescents}, author={Wen Wu and Ziyun Cui and Chang Lei and Yinan Duan and Diyang Qu and Ji Wu and Bowen Zhou and Runsen Chen and Chao Zhang}, journal={arXiv preprint arXiv:2501.06474}, year={2025}, }

搜集汇总

数据集介绍

构建方式

SpeechWellness Challenge Dataset的构建采取模块化处理，涵盖音频处理、文本分析、特征提取等多个方面。该数据集基于wav2vec 2.0 + BERT模型进行基准测试，并利用eGeMAPS和SVM分类器进行辅助分析。数据预处理包括音频文件的组织、JSON文件的生成以及自动语音识别（ASR），进而通过特定的脚本进行模型训练。

使用方法

使用SpeechWellness Challenge Dataset时，用户需首先按照任务需求重组音频文件，并进行预处理以生成训练所需的JSON文件和ASR转录。随后，通过执行相应的训练脚本，用户可以开始模型的训练过程。提交测试结果时，用户需按照指定的JSON格式组织预测结果，并确保代码中的文件路径与本地存储路径相匹配。

背景与挑战

背景概述

SpeechWellness Challenge Dataset是一款专注于青少年自杀风险评估的语音数据集，创建于2025年，由Wen Wu等研究人员提出。该数据集的核心研究问题是如何利用语音特征准确识别青少年的自杀风险，对于心理健康领域的研究具有重要的理论与实践意义。该数据集的发布，为相关领域的研究提供了宝贵的资源，并推动了青少年心理健康评估技术的发展。

当前挑战

该数据集在构建过程中面临的挑战主要包括：1)领域问题挑战，即如何提高语音识别技术在自杀风险评估中的准确性和可靠性；2)数据构建挑战，包括语音数据的收集、标注和特征提取等步骤中遇到的技术难题。此外，如何在保护隐私的前提下，确保数据的多样性和代表性，也是该数据集构建过程中的一大挑战。

常用场景

经典使用场景

在语音健康研究领域，SpeechWellness Challenge Dataset数据集被广泛用于构建评估青少年自杀风险的模型。该数据集提供了基准结果和相关的资源，参与者可以参考基准，通过wav2vec 2.0 + BERT等模型对语音数据进行处理和分类，以预测个体是否处于自杀风险状态。

解决学术问题

该数据集的构建旨在解决青少年自杀风险早期识别的难题，为学术界提供了一种可靠的实验平台。通过使用该数据集，研究者能够开发出具有较高准确率的预测模型，这对于自杀预防和心理健康干预具有重要意义。

实际应用

在实际应用中，该数据集的成果可以直接应用于医疗健康、心理咨询等领域，帮助专业人士及时发现并干预有自杀风险的青少年，从而挽救生命，减少社会悲剧的发生。

数据集最近研究

	Predicted: No Risk	Predicted: At Risk
Actual: No Risk	31	19
Actual: At Risk	20	30