0x-YuAN/voice_dataset
收藏Hugging Face2023-04-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/0x-YuAN/voice_dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype: audio
- name: ID
dtype: string
- name: Sex
dtype: int64
- name: Age
dtype: int64
- name: Disease category
dtype: int64
- name: Narrow pitch range
dtype: int64
- name: Decreased volume
dtype: int64
- name: Fatigue
dtype: int64
- name: Dryness
dtype: int64
- name: Lumping
dtype: int64
- name: heartburn
dtype: int64
- name: Choking
dtype: int64
- name: Eye dryness
dtype: int64
- name: PND
dtype: int64
- name: Smoking
dtype: int64
- name: PPD
dtype: float64
- name: Drinking
dtype: int64
- name: frequency
dtype: int64
- name: Diurnal pattern
dtype: int64
- name: 'Onset of dysphonia '
dtype: int64
- name: Noise at work
dtype: int64
- name: Occupational vocal demand
dtype: int64
- name: Diabetes
dtype: int64
- name: Hypertension
dtype: int64
- name: CAD
dtype: int64
- name: Head and Neck Cancer
dtype: int64
- name: Head injury
dtype: int64
- name: CVA
dtype: int64
- name: Voice handicap index - 10
dtype: float64
splits:
- name: train
num_bytes: 340418666.0
num_examples: 1000
download_size: 323237441
dataset_size: 340418666.0
---
# Dataset Card for "voice_dataset"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
dataset_info:
features:
- name: 音频(audio),数据类型:音频数据
- name: 编号(ID),数据类型:字符串
- name: 性别(Sex),数据类型:64位整数
- name: 年龄(Age),数据类型:64位整数
- name: 疾病类别(Disease category),数据类型:64位整数
- name: 音域狭窄(Narrow pitch range),数据类型:64位整数
- name: 音量降低(Decreased volume),数据类型:64位整数
- name: 疲劳感(Fatigue),数据类型:64位整数
- name: 干燥感(Dryness),数据类型:64位整数
- name: 咽部异物感(Lumping),数据类型:64位整数
- name: 胃灼热(heartburn),数据类型:64位整数
- name: 呛咳(Choking),数据类型:64位整数
- name: 眼干(Eye dryness),数据类型:64位整数
- name: 鼻后滴漏(PND),数据类型:64位整数
- name: 吸烟史(Smoking),数据类型:64位整数
- name: 餐后发音障碍(PPD),数据类型:浮点数
- name: 饮酒史(Drinking),数据类型:64位整数
- name: 发作频率(frequency),数据类型:64位整数
- name: 昼夜节律模式(Diurnal pattern),数据类型:64位整数
- name: 发声困难起病时间(Onset of dysphonia),数据类型:64位整数
- name: 工作环境噪声(Noise at work),数据类型:64位整数
- name: 职业用声需求(Occupational vocal demand),数据类型:64位整数
- name: 糖尿病(Diabetes),数据类型:64位整数
- name: 高血压(Hypertension),数据类型:64位整数
- name: 冠状动脉疾病(CAD),数据类型:64位整数
- name: 头颈部肿瘤(Head and Neck Cancer),数据类型:64位整数
- name: 头部外伤(Head injury),数据类型:64位整数
- name: 脑血管意外(CVA),数据类型:64位整数
- name: 嗓音障碍指数量表-10(Voice handicap index - 10),数据类型:浮点数
splits:
- name: 训练集(train),字节数:340418666.0,样本量:1000
download_size: 323237441
dataset_size: 340418666.0
---
# 语音数据集(voice_dataset)数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
0x-YuAN
原始信息汇总
数据集概述
数据集名称
- 名称:voice_dataset
数据集特征
- audio: 音频数据
- ID: 字符串类型
- Sex: 整数类型
- Age: 整数类型
- Disease category: 整数类型
- Narrow pitch range: 整数类型
- Decreased volume: 整数类型
- Fatigue: 整数类型
- Dryness: 整数类型
- Lumping: 整数类型
- heartburn: 整数类型
- Choking: 整数类型
- Eye dryness: 整数类型
- PND: 整数类型
- Smoking: 整数类型
- PPD: 浮点数类型
- Drinking: 整数类型
- frequency: 整数类型
- Diurnal pattern: 整数类型
- Onset of dysphonia: 整数类型
- Noise at work: 整数类型
- Occupational vocal demand: 整数类型
- Diabetes: 整数类型
- Hypertension: 整数类型
- CAD: 整数类型
- Head and Neck Cancer: 整数类型
- Head injury: 整数类型
- CVA: 整数类型
- Voice handicap index - 10: 浮点数类型
数据集拆分
- train: 训练集
- 数据量: 340418666.0 字节
- 示例数量: 1000
数据集大小
- 下载大小: 323237441 字节
- 数据集大小: 340418666.0 字节
搜集汇总
数据集介绍

构建方式
0x-YuAN/voice_dataset数据集的构建,是在声音信号处理与医学信息结合的背景下进行的。该数据集采集了包含音频文件和与之相关的个人及健康状况信息,通过专业的声音分析与医学诊断,将音频特征与患者各项生理指标相结合,形成了具有多维信息的数据库。
特点
本数据集的特点在于其多维度的数据构成,不仅包含了音频信号,还融合了性别、年龄、疾病类别等众多与健康相关的指标。这种多维数据的结合为研究声音与健康状况之间的关系提供了丰富的素材,有助于推动声音信号在医学诊断领域的应用。
使用方法
使用0x-YuAN/voice_dataset数据集时,用户可以依据音频文件和个人健康信息进行综合分析。数据集分为训练集,便于模型的训练与验证。用户需先下载数据集,并根据数据集提供的字段说明,利用适当的工具和方法对音频及其相关特征进行提取和分析,以开展相关研究或模型构建工作。
背景与挑战
背景概述
在语音信号处理与医学研究交叉领域,0x-YuAN/voice_dataset数据集的创建,无疑是一个重要的里程碑。该数据集由专业研究人员于近年来构建,旨在探索语音信号与个体健康状况之间的关联。数据集包含音频信号及与发声者相关的多种特征,如性别、年龄、疾病类别等,为研究声音与生理、病理状态的关系提供了宝贵的资源。该数据集的问世,对于推动相关疾病早期诊断、语音合成以及人机交互等领域的研究具有显著影响力。
当前挑战
尽管0x-YuAN/voice_dataset数据集为该领域的研究提供了有力支撑,但在实际应用中仍面临诸多挑战。首先,数据集的构建过程中,如何保证音频数据的质量和多样性是一个重要问题。其次,数据标注的准确性直接关系到后续研究的有效性,这对标注人员的专业知识和经验提出了较高要求。此外,由于数据集中包含了敏感的个人健康信息,隐私保护也是数据集构建和使用的关键挑战之一。在解决领域问题方面,如何利用该数据集提高疾病诊断的准确性和效率,以及如何处理数据中的噪声和异常值,都是当前研究必须面对的问题。
常用场景
经典使用场景
在语音信号处理与医学研究领域,0x-YuAN/voice_dataset数据集被广泛应用于声纹识别与疾病诊断。其包含的丰富音频特征与个人信息,为研究者提供了深入分析患者语音特点的宝贵资源,进而辅助于自动化的疾病筛查与诊断流程。
衍生相关工作
基于该数据集,学术界已衍生出一系列相关研究,包括但不限于语音特征与疾病关联性的分析、声纹识别算法的优化,以及个性化医疗语音诊断系统的构建等,极大地推动了医学与人工智能领域的交叉研究进展。
数据集最近研究
最新研究方向
在语音信号处理与生物医学研究领域,0x-YuAN/voice_dataset数据集的构建为探索语音生物标记与多种生理及病理状态之间的关联提供了重要资源。近期研究方向聚焦于通过音频特征分析,如音频信号中的音调、音量、噪音等,结合性别、年龄、疾病类别等元数据,对语音障碍、呼吸道疾病等健康状况进行预测和诊断。该研究对于早期发现潜在疾病、实现个性化医疗方案具有重要的实践影响,为语音生物标记学领域带来了新的研究热点,推动了智能医疗诊断技术的发展。
以上内容由遇见数据集搜集并总结生成



