seniortalk

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/evan0617/seniortalk

下载链接

链接失效反馈

官方服务：

资源简介：

SeniorTalk是一个全面的、开源的普通话语音数据集，专为75至85岁老年人的研究设计。该数据集解决了这一年龄段公共资源缺乏的问题，有助于自动语音识别、说话人验证、说话人分离、语音编辑等领域的进步。数据集包含了来自中国16个省份的202位老年人的55.53小时高质量语音数据，具有丰富的标注信息，包括会话级别、发音级别、特殊标记、说话人级别的标注。数据集分为对话数据集和自动语音识别(ASR)数据集，均提供了训练集、验证集和测试集。

创建时间：

2025-10-17

原始信息汇总

SeniorTalk数据集概述

数据集简介

SeniorTalk是一个专门为75-85岁超高龄老年人设计的综合性开源汉语普通话语音数据集。该数据集旨在解决该年龄段公开语音资源匮乏的问题，可用于自动语音识别、说话人验证、说话人日志、语音编辑等相关领域的研究。

数据集详情

基本特征

语言：汉语普通话
年龄范围：75-85岁
说话人数量：202位老年人
地理分布：涵盖中国16个省级行政区
性别比例：男女比例约为7:13
录音条件：安静环境下使用多种智能手机录制
音频格式：WAV文件，采样率16kHz
转录：字符级人工转录

数据集结构

数据集包含两个子集配置：

dialogue_data配置

训练集：100个样本，11.43GB
测试集：10个样本，1.31GB
总下载大小：12.37GB
总数据集大小：12.74GB

sentence_data配置

训练集：47,269个样本，7.55GB
开发集：6,891个样本，897.24MB
测试集：5,869个样本，1.04GB
总下载大小：8.52GB
总数据集大小：9.49GB

标注信息

会话级：句子开始时间、句子结束时间、重叠语音
话语级：ID、口音级别、文本转录
词元级：特殊词元（[SONANT]、[MUSIC]、[NOISE]等）
说话人级：说话人ID、年龄、性别、地理位置（省份）、设备

数据统计

对话数据集

分割	说话人数	对话数	时长（小时）	平均对话长度（小时）
训练集	182	91	49.83	0.54
测试集	20	10	5.70	0.57
总计	202	101	55.53	0.55

ASR数据集

分割	说话人数	话语数	时长（小时）	平均话语长度（秒）
训练集	162	47,269	29.95	2.28
验证集	20	6,891	4.09	2.14
测试集	20	5,869	3.77	2.31
总计	202	60,029	37.81	2.27

使用条款

许可证：CC BY-NC-SA 4.0
使用限制：仅限学术和非商业研究用途
访问控制：需要通过申请流程获取访问权限

引用信息

@misc{chen2025seniortalkchineseconversationdataset, title={SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors}, author={Yang Chen and Hui Wang and Shiyao Wang and Junyang Chen and Jiabei He and Jiaming Zhou and Xi Yang and Yequan Wang and Yonghua Lin and Yong Qin}, year={2025}, eprint={2503.16578}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.16578}, }

搜集汇总

数据集介绍

构建方式

在老龄化社会研究日益重要的背景下，SeniorTalk数据集通过系统性采集中国16个省份202位75至85岁高龄人群的语音数据构建而成。数据采集过程采用多品牌智能手机在安静环境中录制，确保语音样本的真实性与多样性。研究团队对全部语音数据进行人工精转写，并构建包含对话与会话层级的双重数据结构，最终形成55.53小时的高质量语音资源库。

使用方法

研究者可通过HuggingFace平台提交申请获取数据集访问权限，需明确学术用途并遵守非商业使用协议。数据集按对话与语句两个维度组织，支持直接加载音频文件及对应文本标注。建议分别使用dialogue_data与sentence_data配置进行对话分析或语音识别任务，其中验证集与测试集已预先划分，便于模型性能评估。

背景与挑战

背景概述

随着全球人口老龄化趋势加剧，针对高龄老年人的语音技术研究日益重要。SeniorTalk数据集由BAAI等机构于2025年创建，专门面向75至85岁超高龄群体的中文语音研究。该数据集收录了来自中国16个省份的202位老年人语音数据，总时长55.53小时，填补了该年龄段高质量语音数据的空白。其核心研究目标在于推动老年语音识别、说话人验证及语音编辑等技术的发展，为老龄化社会的智能技术应用提供重要数据支撑。

当前挑战

在语音技术领域，高龄老年人语音存在发音模糊、语速缓慢等生理特征，传统语音模型对此类数据的适应性较差。数据集构建过程中面临多重挑战：高龄参与者招募困难，需跨越16个省份确保地域多样性；录音环境虽要求安静，但使用多种智能手机设备导致音频质量存在差异；语音转写需处理老年人口语中的特殊发音现象，标注工作复杂度高；同时还需严格遵守伦理规范，保护参与者隐私权益。

常用场景

经典使用场景

在语音技术研究领域，SeniorTalk数据集为超高龄人群的语音处理提供了关键资源。该数据集通过收录75至85岁老年人的自然对话和独立语句，广泛应用于自动语音识别系统的开发与优化。其丰富的年龄特征和地域口音差异，使得模型能够更准确地捕捉老年群体的发音特点，为跨年龄语音分析奠定了数据基础。

解决学术问题

该数据集有效解决了老年语音数据稀缺的学术困境。通过提供包含重叠语音、特殊标记的精细标注，支持说话人验证与分离等前沿研究。其覆盖16个省份的方言特征，为口音适应性模型提供了研究样本，显著推进了语音技术在不同年龄段的普适性研究，填补了该细分领域的空白。

实际应用

在现实场景中，该数据集为适老化智能设备开发提供核心支持。基于其训练的语音模型可应用于老年健康监护系统、智能助老机器人等场景，提升设备对老年用户语音的识别准确率。其自然对话数据还能助力构建更符合老年人交流习惯的智能交互系统，推动银发经济下的技术革新。

数据集最近研究