five

SeniorTalk

收藏
arXiv2025-03-20 更新2025-03-25 收录
下载链接:
https://www.aishelltech.com/General_Datasets
下载链接
链接失效反馈
资源简介:
SeniorTalk是一个为超高龄老人设计的中文对话数据集,包含101个自然对话的录音,共计55.53小时,涉及202名参与者。该数据集跨越性别、地区和年龄,进行了多维度详细标注,支持多种语音任务,如说话人验证、说话人日记化、语音识别和语音编辑等。

SeniorTalk is a Chinese dialogue dataset designed for ultra-elderly populations. It contains 101 natural conversational recordings totaling 55.53 hours, involving 202 participants. Spanning across gender, region and age groups, this dataset features multi-dimensional detailed annotations and supports multiple speech tasks including speaker verification, speaker diarization, speech recognition and speech editing, among others.
提供机构:
南开大学计算机学院, 北京人工智能科学院
创建时间:
2025-03-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
SeniorTalk数据集的构建采用了严格的多阶段流程,首先通过分层抽样策略在中国16个省份招募202名75岁以上老年人,确保性别、地域和年龄的均衡分布。数据采集环节采用自然对话模式,使用移动设备录制101组真实场景下的自由对话,涵盖健康、退休生活等老年人高频话题。专业标注团队通过云平台对55.53小时音频进行八维度精细标注,包括说话人信息、时间戳、口音强度等要素,并建立四层质量校验机制确保标注一致性。
特点
该数据集的核心价值体现在三方面:其一,专属性聚焦75岁以上超高龄群体,填补了现有语料库的年龄空白;其二,采用自然对话采集模式,相较传统朗读式语料更真实反映老年言语特征;其三,多维标注体系同时支持语音识别、说话人分离等八类任务。特别包含的方言口音强度标注(0-3级)和特殊声音事件标记(如笑声、咳嗽),为研究老年语音退化模式提供了独特视角。
使用方法
研究者可通过分层抽样方式划分数据集,建议按8:1:1比例分配训练、验证和测试集。针对说话人验证任务,需构建包含20,000对正负样本的试验集;语音识别任务建议过滤短句后保留四字以上语料;语音编辑应用需注意9:1的数据划分比例。实验表明,Paraformer-large模型经微调后在该数据集上表现最优(CER 14.41%),ECAPA-TDNN则在说话人日志任务中展现优势(DER 22.85%)。使用时应特别注意遵守伦理协议,禁止商业用途和语音合成滥用。
背景与挑战
背景概述
SeniorTalk是由南开大学计算机科学与技术学院与北京人工智能研究院联合开发的中文对话数据集,专注于75岁及以上超高龄老年人的语音特征研究。该数据集创建于2025年,旨在解决现有语音系统对老年人群体的适应性不足问题。数据集包含来自中国16个省份202名参与者的101段自然对话,总计55.53小时的语音数据,并标注了说话者信息、时间戳、口音强度等多维度特征。作为首个针对超高龄人群设计的普通话对话语料库,SeniorTalk填补了老年语音研究领域的数据空白,为人机交互、语音识别和健康监测等应用提供了重要基础。
当前挑战
SeniorTalk面临的核心挑战体现在两个方面:在领域问题层面,现有语音识别系统难以准确捕捉老年群体特有的发声特征,如因年龄增长导致的音调不稳定、发音模糊等生理变化,以及复杂的方言变异现象;在构建过程层面,数据收集面临超高龄参与者招募困难、录音环境噪音控制、以及多维度标注体系设计等挑战。特别需要解决的技术难题包括:如何有效区分因年龄导致的语音退化与病理特征,如何处理自然对话中常见的重叠语音现象,以及如何建立适用于老年语音的评估基准。
常用场景
经典使用场景
在老龄化社会背景下,SeniorTalk数据集为研究超高龄人群(75岁以上)的语音特征提供了重要资源。该数据集通过自然对话形式捕捉老年群体特有的发声模式(如老年性嗓音变化和方言变异),为语音识别、说话人验证等任务提供了真实场景下的研究素材。其多维度标注体系特别适用于分析年龄相关的语音退化现象,填补了现有语音数据集中高龄样本不足的空白。
衍生相关工作
该数据集已催生多个重要研究方向:在语音合成领域衍生出针对老年嗓音的个性化声学建模方法;在健康监测方向推动了基于语音生物标志物的老年慢性病预测研究;其标注体系启发了一系列跨模态老年行为分析工作。相关成果如DiffEditor语音编辑框架和AudioEditor工具集,均直接采用该数据集解决老年语音的特征保持问题。
数据集最近研究
最新研究方向
在老龄化社会背景下,SeniorTalk数据集为超高龄人群(75岁以上)的语音技术研究开辟了新方向。该数据集通过收录101组自然对话(55.53小时/202名说话人),首次系统标注了老年语音的八大维度特征,包括地域方言、音色退化等年龄相关声学特性。当前研究聚焦三个前沿领域:一是基于声纹验证的老年身份认证系统开发,ECAPA-TDNN模型在该数据集上实现11.54%的等错误率,揭示了年龄相关声学退化对生物特征识别的影响机制;二是针对老年语音的说话人日志技术,通过改进的谱聚类算法将混淆错误率降低至11.31%,为多代际家庭场景下的语音分离提供新基准;三是老年语音识别系统的优化,E-Branchformer模型在方言场景下相较传统Transformer降低15.74%的字错误率,显著提升了包含老年性嗓音障碍(presbyphonia)等病理特征的语音识别鲁棒性。该数据集填补了现有语音资源在超高龄群体、自然对话场景及多维度标注方面的空白,为构建包容性语音技术提供了关键基础设施。
相关研究论文
  • 1
    SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors南开大学计算机学院, 北京人工智能科学院 · 2025年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作