five

WildElder

收藏
github2025-10-12 更新2025-10-15 收录
下载链接:
https://github.com/NKU-HLT/WildElder
下载链接
链接失效反馈
官方服务:
资源简介:
WildElder是一个专注于老年人场景的语音数据集,包含原始音频和相应的文本标注,可用于自动语音识别、说话人相关任务以及前后端语音处理研究。数据从真实环境中收集和清理,以保留多样性和真实的噪声条件。

WildElder is a speech dataset focused on elderly scenarios. It contains raw audio recordings and corresponding text annotations, enabling research applications in automatic speech recognition, speaker-related tasks, and both front-end and back-end speech processing. The data was collected and curated from real-world environments to preserve data diversity and authentic noise conditions.
创建时间:
2025-09-16
原始信息汇总

WildElder数据集概述

数据集简介

WildElder是一个专注于老年人场景的中文语音数据集,包含原始音频和相应的文本标注。该数据集可用于自动语音识别(ASR)、说话人相关任务以及前后端语音处理研究。数据从真实环境中收集和清理,保留了多样性和真实的噪声条件。

数据集结构

  • 音频文件:位于audio/old_bozhu_download/目录下,格式为.wav文件
  • 文本标注:位于audio/old_bozhu_download/目录下,格式为.txt文件
  • 数据划分:提供Kaldi风格的数据划分列表,位于data_split/目录下
    • 包含开发集(dev)、测试集(test)和训练集(train)
    • wav.scp文件格式:utt_id path/to/audio.wav
    • text文件格式:utt_id transcription

文件格式示例

  • 文本标注:勾股定理就是三角形斜边的平方等于两个直角边的平方和
  • wav.scp:old_bozhu_download_B_bozhu_1_1_audio_004 WildElder/audio/old_bozhu_download/B_bozhu_1/1/audio_004.wav
  • text:old_bozhu_download_B_bozhu_1_1_audio_004 勾股定理就是三角形斜边的平方等于两个直角边的平方和

基准性能

模型 损失函数 参数量 CTC Greedy CTC Beam Attention Attention Rescoring
Transformer CTC+ATT 29.80M 37.44 37.28 47.54 36.30
Conformer CTC+ATT 31.94M 32.51 32.48 39.58 31.74
Branchformer CTC+ATT 29.01M 35.67 35.61 45.60 34.80
Paraformer CTC+Paraformer 31.04M 42.71 38.39 - -

版权信息

  • 数据来源:数据集内容提取/衍生自第三方平台,不拥有或主张对基础音频或转录文本的原始版权
  • 权利归属:原始内容的所有权利仍归各自平台和原始权利持有人所有
  • 使用范围:严格限于学术研究和内部测试

下架政策

如果权利持有人认为WildElder中的任何材料侵犯了其权利,请联系维护人员。经验证后,将及时删除或限制对相关内容访问。

许可和引用

  • 许可:用于学术研究和内部测试,商业使用需先联系维护人员
  • 引用:WILDELDER: A CHINESE ELDERLY SPEECH DATASET FROM THE WILD WITH FINE-GRAINED MANUAL ANNOTATIONS, 2025
搜集汇总
数据集介绍
main_image_url
构建方式
在老年语音识别研究领域,WildElder数据集通过从真实环境中采集原始音频数据构建而成,涵盖了多样化的老年语音场景。数据收集过程中保留了环境噪声和自然语音特征,所有音频均经过精细的人工转录处理,生成对应的文本标注。数据集采用Kaldi风格的文件结构组织,确保音频与文本的严格对齐,为语音处理研究提供了高质量的底层数据支持。
特点
该数据集以老年人群的语音为核心特色,包含丰富的生活场景录音和精细的手动标注文本。其独特价值在于完全源自真实环境,既保持了语音的原始多样性,又通过专业标注确保了文本准确性。数据划分遵循标准的研究范式,提供开发集、测试集和训练集,便于模型评估与比较,为老年语音研究填补了重要空白。
使用方法
研究者可通过Hugging Face平台直接获取数据集,按照提供的Kaldi格式文件进行加载。使用时可参考Wenet工具链的示例配置,支持Transformer、Conformer等多种主流语音模型训练。数据集适用于自动语音识别、说话人相关任务及前后端语音处理研究,但需注意仅限非商业学术用途,使用时应当遵循相关版权协议。
背景与挑战
背景概述
随着人口老龄化趋势加剧,针对老年群体的语音技术研究日益受到重视。WildElder数据集由研究团队于2025年发布,专注于采集真实场景下的中文老年语音数据。该数据集通过精细的人工标注,为自动语音识别、说话人识别及前后端语音处理研究提供了重要资源。其数据源自第三方平台的真实环境录音,完整保留了环境噪音和语音多样性,对推动适老化语音技术发展具有显著意义。
当前挑战
在老年语音识别领域,存在发音模糊、语速缓慢及个体生理退化导致的声学特征变异等核心难题。数据集构建过程中面临双重挑战:一方面需在复杂环境噪声中保持语音质量,另一方面要求标注人员具备方言辨识和老年语音特征理解能力。原始数据权利归属复杂性与伦理审查要求进一步增加了数据合规使用的难度。
常用场景
经典使用场景
在语音技术研究领域,WildElder数据集主要应用于自动语音识别(ASR)系统的开发与评估。该数据集收录了真实环境下老年人语音数据,包含多样化的噪声条件和自然对话场景,为模型训练提供了高度逼真的语料。研究者可利用其精细标注的音频文本对,构建鲁棒性强的语音识别模型,尤其适用于处理老年人特有的发音特征和语速变化。
解决学术问题
该数据集有效解决了老年语音资源匮乏的学术困境,为年龄特异性语音研究提供了关键数据支撑。通过真实场景的语音采集,它助力研究者突破实验室环境的局限,深入探究老年群体在音素清晰度、韵律特征等方面的独有规律。其标注体系为跨年龄语音对比、退化语音建模等前沿课题提供了标准化研究基础。
衍生相关工作
围绕该数据集已衍生出多项创新研究,包括基于Conformer架构的噪声鲁棒语音识别系统、结合对抗训练的年龄不变声学建模等方法。这些工作通过利用数据集的细粒度标注优势,在跨领域语音适应、少样本学习等方向取得突破,推动了老年语音计算领域的方法论创新与技术演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作