StressData
收藏arXiv2023-12-03 更新2024-06-21 收录
下载链接:
https://github.com/xalentis/Stress
下载链接
链接失效反馈官方服务:
资源简介:
StressData是由詹姆斯库克大学科学与工程学院创建的一个大型数据集,通过整合多个小型公共数据集而成,总计包含99个研究对象的数据。该数据集通过特征工程处理,增加了数据的统计强度和数据变化的捕捉能力,旨在训练更稳健的机器学习模型。数据集主要应用于压力预测领域,特别是在使用可穿戴设备监测生理信号时,能够帮助解决压力水平预测的问题。创建过程中,研究团队采用了随机抽样技术,构建了与实验条件紧密对齐的场景,显著提高了模型的泛化能力。
StressData is a large-scale dataset developed by the School of Science and Engineering at James Cook University. It is constructed by integrating multiple small public datasets, encompassing data from a total of 99 research subjects. Through feature engineering processing, the dataset enhances the statistical robustness of the data and its capability to capture data variations, aiming to train more robust machine learning models. This dataset is primarily applied in the field of stress prediction, and it can help solve the problem of stress level prediction, especially when wearable devices are used to monitor physiological signals. During its creation, the research team adopted random sampling techniques to construct scenarios that closely align with experimental conditions, which significantly improves the generalization ability of the models.
提供机构:
詹姆斯库克大学科学与工程学院
创建时间:
2022-09-30
搜集汇总
数据集介绍

构建方式
StressData 数据集的构建方式是将多个公开的小型数据集进行工程化处理,合成一个新的较大数据集。研究人员首先分析了现有研究使用的小型数据集,发现其在泛化新数据方面存在局限性。为了克服这一问题,他们从六个公开数据集中提取传感器生物标志物数据,并进行探索性数据分析,以了解研究对象之间的生理差异及其对构建机器学习模型的影响。随后,他们将四个小型数据集(SWELL、NEURO、WESAD 和 UBFC-Phys)合并,形成包含 99 名研究对象的 StressData 数据集。此外,他们还利用随机采样技术构建了一个包含 200 个合成研究对象的大型训练数据集,命名为 SynthesizedStressData。
特点
StressData 数据集的特点是规模较大,包含多个研究对象的生理数据,能够更好地捕捉数据变化,从而训练更鲁棒的机器学习模型。该数据集涵盖了多种生理生物标志物,包括皮肤电活动 (EDA) 和心率 (HR),并经过特征工程处理,生成新的特征,例如统计摘要和滑动窗口特征。此外,该数据集还采用了随机采样技术,构建了一个平衡的训练数据集,能够更好地模拟真实世界的实验条件。
使用方法
StressData 数据集可用于训练机器学习模型,以预测压力水平。研究人员提出了一个集成学习方法,将梯度提升模型和人工神经网络相结合,并使用 Leave-One-Subject-Out (LOSO) 验证方法进行测试。结果表明,与单模型相比,集成模型在预测新数据方面具有更高的准确率。该数据集还可用于研究压力检测模型的泛化能力,并帮助研究人员构建大型、多样化的数据集,以训练能够模拟其特定实验条件的机器学习模型。
背景与挑战
背景概述
压力数据集(StressData)的创建旨在解决现有机器学习模型在压力预测方面泛化能力不足的问题。该数据集由澳大利亚詹姆斯库克大学的Gideon Vos、Kelly Trinh、Zoltan Sarnyai和Mostafa Rahimi Azghadi等研究人员于2023年12月3日提出。该数据集通过将多个小型公共数据集合并成一个更大的数据集,从而提高了统计功效并更好地捕捉数据变化,为训练更鲁棒的机器学习模型提供了基础。此外,该数据集还提出了集成学习方法,通过结合多个机器学习模型,实现了比单一模型25%的预测性能提升。
当前挑战
压力数据集面临的挑战主要包括:1)所解决的领域问题:压力预测。压力作为一种复杂的生理和心理现象,具有个体差异和情境依赖性,这使得建立一个通用的压力测量模型具有挑战性。2)构建过程中所遇到的挑战:a)缺乏大型、公开可用的压力数据集,限制了机器学习模型的训练和泛化能力。b)现有的压力数据集大多包含少量受试者,难以捕捉到生理指标的变异性和数据的多样性。c)数据集之间存在类不平衡问题,即不同数据集中压力和非压力样本的比例差异较大,这会影响模型的预测性能。
常用场景
经典使用场景
StressData 数据集主要应用于压力预测领域,尤其是利用可穿戴设备进行压力预测。该数据集通过整合多个小规模公共数据集,构建了一个包含大量受试者数据的综合数据集,从而提高了数据集的统计功效和模型泛化能力。此外,该数据集还支持特征工程和集成学习方法,进一步提升了压力预测模型的性能。
实际应用
StressData 数据集在实际应用中具有广泛的应用前景。例如,它可以用于开发可穿戴设备应用程序,帮助用户实时监测自身的压力水平,并提供相应的干预措施;此外,该数据集还可以用于构建压力管理平台,为用户提供个性化的压力管理方案,并促进心理健康的发展。
衍生相关工作
StressData 数据集的发布推动了压力预测领域的进一步研究。例如,一些研究利用该数据集探索了更先进的机器学习模型,例如深度学习模型,以进一步提高压力预测的准确性和鲁棒性;此外,一些研究还利用该数据集进行了跨设备的压力预测研究,并取得了令人鼓舞的成果。
以上内容由遇见数据集搜集并总结生成



