five

smarty4covid

收藏
arXiv2023-07-11 更新2024-07-24 收录
下载链接:
https://www.smarty4covid.org/
下载链接
链接失效反馈
官方服务:
资源简介:
smarty4covid数据集是由雅典国立技术大学创建的一个多模态框架,用于可解释分析音频信号。该数据集包含18,265条音频记录,包括咳嗽、呼吸和语音,以及用户自报告的与COVID-19相关的信息。数据集通过众包方式收集,并经过清理和专家标注。该数据集的应用领域主要集中在开发COVID-19风险检测模型,旨在从音频记录中提取临床相关的呼吸指标,并识别咳嗽、呼吸和语音段,以支持快速、有效的COVID-19检测。

The smarty4covid dataset is a multimodal framework developed by the National Technical University of Athens for interpretable audio signal analysis. It contains 18,265 audio recordings covering cough, breathing and speech sounds, along with user-reported COVID-19-related information. The dataset was collected via crowdsourcing, and underwent cleaning and expert annotation. Its core applications focus on developing COVID-19 risk detection models, which are designed to extract clinically relevant respiratory indicators from audio recordings, identify cough, breathing and speech segments, and support rapid and effective COVID-19 testing.
提供机构:
雅典国立技术大学
创建时间:
2023-07-11
搜集汇总
数据集介绍
main_image_url
构建方式
smarty4covid数据集通过众包方式收集,涵盖了4,676个咳嗽音频、4,665个正常呼吸音频、4,695个深呼吸音频和4,291个语音音频。这些音频通过移动设备记录,并结合自我报告的COVID-19病毒测试结果,形成了一个综合性的数据集。数据集以Web本体语言(OWL)知识库的形式发布,支持从其他相关数据集的数据整合、复杂查询和推理。
特点
smarty4covid数据集的特点在于其多模态性,不仅包含音频信号,还包括自我报告的元数据,如人口统计信息、症状、潜在疾病、吸烟状况、生命体征、COVID-19疫苗接种状态等。此外,数据集经过精心清理,去除了错误和噪声样本,并由医疗专家标注了一部分数据。数据集还以OWL知识库的形式发布,支持数据整合和复杂查询。
使用方法
smarty4covid数据集可用于开发和验证COVID-19风险检测模型,特别是基于音频信号的模型。用户可以通过访问数据集的OWL知识库进行数据查询和整合,利用提取的呼吸相关特征进行模型训练。此外,数据集还支持生成反事实解释,帮助识别模型中的潜在偏差。数据集的代码和模型权重可在公共仓库中获取,用户可以使用这些资源进行进一步的研究和开发。
背景与挑战
背景概述
在COVID-19大流行期间,利用人工智能(AI)和移动健康技术检测呼吸异常的新生物标志物引起了科学和研究界的广泛关注。smarty4covid数据集由雅典国立技术大学、南加州大学等机构的研究人员创建,包含通过移动设备记录的咳嗽、正常呼吸、深呼吸和语音的音频信号,以及自我报告的COVID-19病毒测试结果。该数据集通过众包方式收集,旨在开发COVID-19风险检测模型,并已用于提取临床相关的呼吸指标和识别音频记录中的咳嗽、呼吸和语音段。smarty4covid数据集的发布形式为网络本体语言(OWL)知识库,支持数据整合、复杂查询和推理,有助于透明和可解释的AI模型开发。
当前挑战
smarty4covid数据集面临的挑战包括:1) 众包数据中存在与预期内容无关的音频记录和低质量、高噪音的音频,需要数据筛选和清理;2) 数据集中COVID-19阳性病例与阴性病例的比例较低,可能导致模型过拟合;3) 数据集的异质性和缺乏对COVID-19变异和疫苗接种状态等因素的考虑,增加了模型开发的复杂性;4) 需要开发知识表示方法,以整合和推理可用数据,确保透明性和用户信任。此外,生成对抗性解释和发现数据集中的潜在偏差也是重要的研究方向。
常用场景
经典使用场景
smarty4covid数据集的经典使用场景主要集中在利用音频信号进行COVID-19风险检测模型的开发。该数据集包含了咳嗽、正常呼吸、深呼吸和语音的音频信号,以及自我报告的COVID-19病毒测试结果,为研究人员提供了丰富的数据资源。通过这些数据,研究人员可以开发出能够从音频记录中提取临床相关呼吸指标的模型,例如呼吸频率(RR)、吸气与呼气时间比(I/E比)和分数吸气时间(FIT)。此外,该数据集还支持开发能够识别咳嗽、呼吸和语音片段的模型,从而为COVID-19的早期检测提供技术支持。
解决学术问题
smarty4covid数据集解决了在COVID-19大流行期间,传统检测方法如RT-PCR测试和CT扫描存在的局限性问题。这些方法不仅需要高度训练的人员和昂贵的设备,还存在检测时间长和灵敏度不稳定的问题。通过利用音频信号进行COVID-19风险检测,该数据集提供了一种快速、可持续且有效的检测方法,支持多次重复测试以跟踪病情进展。此外,该数据集还促进了可解释性AI模型的开发,通过生成反事实解释来识别模型中的潜在偏差,从而提高模型的透明度和可信度。
衍生相关工作
smarty4covid数据集的发布和应用催生了一系列相关研究工作。例如,研究人员利用该数据集开发了多种音频分类模型,能够准确识别咳嗽、呼吸和语音片段。此外,该数据集还促进了可解释性AI模型的研究,通过生成反事实解释来提高模型的透明度和可信度。这些研究不仅推动了COVID-19检测技术的发展,还为其他基于音频信号的疾病检测研究提供了宝贵的经验和方法。未来,随着更多研究的开展,smarty4covid数据集将继续在医疗健康领域发挥重要作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作