five

0x-YuAN/voice_dataset

收藏
Hugging Face2023-04-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/0x-YuAN/voice_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: audio dtype: audio - name: ID dtype: string - name: Sex dtype: int64 - name: Age dtype: int64 - name: Disease category dtype: int64 - name: Narrow pitch range dtype: int64 - name: Decreased volume dtype: int64 - name: Fatigue dtype: int64 - name: Dryness dtype: int64 - name: Lumping dtype: int64 - name: heartburn dtype: int64 - name: Choking dtype: int64 - name: Eye dryness dtype: int64 - name: PND dtype: int64 - name: Smoking dtype: int64 - name: PPD dtype: float64 - name: Drinking dtype: int64 - name: frequency dtype: int64 - name: Diurnal pattern dtype: int64 - name: 'Onset of dysphonia ' dtype: int64 - name: Noise at work dtype: int64 - name: Occupational vocal demand dtype: int64 - name: Diabetes dtype: int64 - name: Hypertension dtype: int64 - name: CAD dtype: int64 - name: Head and Neck Cancer dtype: int64 - name: Head injury dtype: int64 - name: CVA dtype: int64 - name: Voice handicap index - 10 dtype: float64 splits: - name: train num_bytes: 340418666.0 num_examples: 1000 download_size: 323237441 dataset_size: 340418666.0 --- # Dataset Card for "voice_dataset" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- dataset_info: features: - name: 音频(audio),数据类型:音频数据 - name: 编号(ID),数据类型:字符串 - name: 性别(Sex),数据类型:64位整数 - name: 年龄(Age),数据类型:64位整数 - name: 疾病类别(Disease category),数据类型:64位整数 - name: 音域狭窄(Narrow pitch range),数据类型:64位整数 - name: 音量降低(Decreased volume),数据类型:64位整数 - name: 疲劳感(Fatigue),数据类型:64位整数 - name: 干燥感(Dryness),数据类型:64位整数 - name: 咽部异物感(Lumping),数据类型:64位整数 - name: 胃灼热(heartburn),数据类型:64位整数 - name: 呛咳(Choking),数据类型:64位整数 - name: 眼干(Eye dryness),数据类型:64位整数 - name: 鼻后滴漏(PND),数据类型:64位整数 - name: 吸烟史(Smoking),数据类型:64位整数 - name: 餐后发音障碍(PPD),数据类型:浮点数 - name: 饮酒史(Drinking),数据类型:64位整数 - name: 发作频率(frequency),数据类型:64位整数 - name: 昼夜节律模式(Diurnal pattern),数据类型:64位整数 - name: 发声困难起病时间(Onset of dysphonia),数据类型:64位整数 - name: 工作环境噪声(Noise at work),数据类型:64位整数 - name: 职业用声需求(Occupational vocal demand),数据类型:64位整数 - name: 糖尿病(Diabetes),数据类型:64位整数 - name: 高血压(Hypertension),数据类型:64位整数 - name: 冠状动脉疾病(CAD),数据类型:64位整数 - name: 头颈部肿瘤(Head and Neck Cancer),数据类型:64位整数 - name: 头部外伤(Head injury),数据类型:64位整数 - name: 脑血管意外(CVA),数据类型:64位整数 - name: 嗓音障碍指数量表-10(Voice handicap index - 10),数据类型:浮点数 splits: - name: 训练集(train),字节数:340418666.0,样本量:1000 download_size: 323237441 dataset_size: 340418666.0 --- # 语音数据集(voice_dataset)数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
0x-YuAN
原始信息汇总

数据集概述

数据集名称

  • 名称:voice_dataset

数据集特征

  • audio: 音频数据
  • ID: 字符串类型
  • Sex: 整数类型
  • Age: 整数类型
  • Disease category: 整数类型
  • Narrow pitch range: 整数类型
  • Decreased volume: 整数类型
  • Fatigue: 整数类型
  • Dryness: 整数类型
  • Lumping: 整数类型
  • heartburn: 整数类型
  • Choking: 整数类型
  • Eye dryness: 整数类型
  • PND: 整数类型
  • Smoking: 整数类型
  • PPD: 浮点数类型
  • Drinking: 整数类型
  • frequency: 整数类型
  • Diurnal pattern: 整数类型
  • Onset of dysphonia: 整数类型
  • Noise at work: 整数类型
  • Occupational vocal demand: 整数类型
  • Diabetes: 整数类型
  • Hypertension: 整数类型
  • CAD: 整数类型
  • Head and Neck Cancer: 整数类型
  • Head injury: 整数类型
  • CVA: 整数类型
  • Voice handicap index - 10: 浮点数类型

数据集拆分

  • train: 训练集
    • 数据量: 340418666.0 字节
    • 示例数量: 1000

数据集大小

  • 下载大小: 323237441 字节
  • 数据集大小: 340418666.0 字节
搜集汇总
数据集介绍
main_image_url
构建方式
0x-YuAN/voice_dataset数据集的构建,是在声音信号处理与医学信息结合的背景下进行的。该数据集采集了包含音频文件和与之相关的个人及健康状况信息,通过专业的声音分析与医学诊断,将音频特征与患者各项生理指标相结合,形成了具有多维信息的数据库。
特点
本数据集的特点在于其多维度的数据构成,不仅包含了音频信号,还融合了性别、年龄、疾病类别等众多与健康相关的指标。这种多维数据的结合为研究声音与健康状况之间的关系提供了丰富的素材,有助于推动声音信号在医学诊断领域的应用。
使用方法
使用0x-YuAN/voice_dataset数据集时,用户可以依据音频文件和个人健康信息进行综合分析。数据集分为训练集,便于模型的训练与验证。用户需先下载数据集,并根据数据集提供的字段说明,利用适当的工具和方法对音频及其相关特征进行提取和分析,以开展相关研究或模型构建工作。
背景与挑战
背景概述
在语音信号处理与医学研究交叉领域,0x-YuAN/voice_dataset数据集的创建,无疑是一个重要的里程碑。该数据集由专业研究人员于近年来构建,旨在探索语音信号与个体健康状况之间的关联。数据集包含音频信号及与发声者相关的多种特征,如性别、年龄、疾病类别等,为研究声音与生理、病理状态的关系提供了宝贵的资源。该数据集的问世,对于推动相关疾病早期诊断、语音合成以及人机交互等领域的研究具有显著影响力。
当前挑战
尽管0x-YuAN/voice_dataset数据集为该领域的研究提供了有力支撑,但在实际应用中仍面临诸多挑战。首先,数据集的构建过程中,如何保证音频数据的质量和多样性是一个重要问题。其次,数据标注的准确性直接关系到后续研究的有效性,这对标注人员的专业知识和经验提出了较高要求。此外,由于数据集中包含了敏感的个人健康信息,隐私保护也是数据集构建和使用的关键挑战之一。在解决领域问题方面,如何利用该数据集提高疾病诊断的准确性和效率,以及如何处理数据中的噪声和异常值,都是当前研究必须面对的问题。
常用场景
经典使用场景
在语音信号处理与医学研究领域,0x-YuAN/voice_dataset数据集被广泛应用于声纹识别与疾病诊断。其包含的丰富音频特征与个人信息,为研究者提供了深入分析患者语音特点的宝贵资源,进而辅助于自动化的疾病筛查与诊断流程。
衍生相关工作
基于该数据集,学术界已衍生出一系列相关研究,包括但不限于语音特征与疾病关联性的分析、声纹识别算法的优化,以及个性化医疗语音诊断系统的构建等,极大地推动了医学与人工智能领域的交叉研究进展。
数据集最近研究
最新研究方向
在语音信号处理与生物医学研究领域,0x-YuAN/voice_dataset数据集的构建为探索语音生物标记与多种生理及病理状态之间的关联提供了重要资源。近期研究方向聚焦于通过音频特征分析,如音频信号中的音调、音量、噪音等,结合性别、年龄、疾病类别等元数据,对语音障碍、呼吸道疾病等健康状况进行预测和诊断。该研究对于早期发现潜在疾病、实现个性化医疗方案具有重要的实践影响,为语音生物标记学领域带来了新的研究热点,推动了智能医疗诊断技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作