seniortalk
收藏Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/evan0617/seniortalk
下载链接
链接失效反馈官方服务:
资源简介:
SeniorTalk是一个全面的、开源的普通话语音数据集,专为75至85岁老年人的研究设计。该数据集解决了这一年龄段公共资源缺乏的问题,有助于自动语音识别、说话人验证、说话人分离、语音编辑等领域的进步。数据集包含了来自中国16个省份的202位老年人的55.53小时高质量语音数据,具有丰富的标注信息,包括会话级别、发音级别、特殊标记、说话人级别的标注。数据集分为对话数据集和自动语音识别(ASR)数据集,均提供了训练集、验证集和测试集。
创建时间:
2025-10-17
原始信息汇总
SeniorTalk数据集概述
数据集简介
SeniorTalk是一个专门为75-85岁超高龄老年人设计的综合性开源汉语普通话语音数据集。该数据集旨在解决该年龄段公开语音资源匮乏的问题,可用于自动语音识别、说话人验证、说话人日志、语音编辑等相关领域的研究。
数据集详情
基本特征
- 语言:汉语普通话
- 年龄范围:75-85岁
- 说话人数量:202位老年人
- 地理分布:涵盖中国16个省级行政区
- 性别比例:男女比例约为7:13
- 录音条件:安静环境下使用多种智能手机录制
- 音频格式:WAV文件,采样率16kHz
- 转录:字符级人工转录
数据集结构
数据集包含两个子集配置:
dialogue_data配置
- 训练集:100个样本,11.43GB
- 测试集:10个样本,1.31GB
- 总下载大小:12.37GB
- 总数据集大小:12.74GB
sentence_data配置
- 训练集:47,269个样本,7.55GB
- 开发集:6,891个样本,897.24MB
- 测试集:5,869个样本,1.04GB
- 总下载大小:8.52GB
- 总数据集大小:9.49GB
标注信息
- 会话级:句子开始时间、句子结束时间、重叠语音
- 话语级:ID、口音级别、文本转录
- 词元级:特殊词元([SONANT]、[MUSIC]、[NOISE]等)
- 说话人级:说话人ID、年龄、性别、地理位置(省份)、设备
数据统计
对话数据集
| 分割 | 说话人数 | 对话数 | 时长(小时) | 平均对话长度(小时) |
|---|---|---|---|---|
| 训练集 | 182 | 91 | 49.83 | 0.54 |
| 测试集 | 20 | 10 | 5.70 | 0.57 |
| 总计 | 202 | 101 | 55.53 | 0.55 |
ASR数据集
| 分割 | 说话人数 | 话语数 | 时长(小时) | 平均话语长度(秒) |
|---|---|---|---|---|
| 训练集 | 162 | 47,269 | 29.95 | 2.28 |
| 验证集 | 20 | 6,891 | 4.09 | 2.14 |
| 测试集 | 20 | 5,869 | 3.77 | 2.31 |
| 总计 | 202 | 60,029 | 37.81 | 2.27 |
使用条款
- 许可证:CC BY-NC-SA 4.0
- 使用限制:仅限学术和非商业研究用途
- 访问控制:需要通过申请流程获取访问权限
引用信息
@misc{chen2025seniortalkchineseconversationdataset, title={SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors}, author={Yang Chen and Hui Wang and Shiyao Wang and Junyang Chen and Jiabei He and Jiaming Zhou and Xi Yang and Yequan Wang and Yonghua Lin and Yong Qin}, year={2025}, eprint={2503.16578}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.16578}, }
搜集汇总
数据集介绍

构建方式
在老龄化社会研究日益重要的背景下,SeniorTalk数据集通过系统性采集中国16个省份202位75至85岁高龄人群的语音数据构建而成。数据采集过程采用多品牌智能手机在安静环境中录制,确保语音样本的真实性与多样性。研究团队对全部语音数据进行人工精转写,并构建包含对话与会话层级的双重数据结构,最终形成55.53小时的高质量语音资源库。
使用方法
研究者可通过HuggingFace平台提交申请获取数据集访问权限,需明确学术用途并遵守非商业使用协议。数据集按对话与语句两个维度组织,支持直接加载音频文件及对应文本标注。建议分别使用dialogue_data与sentence_data配置进行对话分析或语音识别任务,其中验证集与测试集已预先划分,便于模型性能评估。
背景与挑战
背景概述
随着全球人口老龄化趋势加剧,针对高龄老年人的语音技术研究日益重要。SeniorTalk数据集由BAAI等机构于2025年创建,专门面向75至85岁超高龄群体的中文语音研究。该数据集收录了来自中国16个省份的202位老年人语音数据,总时长55.53小时,填补了该年龄段高质量语音数据的空白。其核心研究目标在于推动老年语音识别、说话人验证及语音编辑等技术的发展,为老龄化社会的智能技术应用提供重要数据支撑。
当前挑战
在语音技术领域,高龄老年人语音存在发音模糊、语速缓慢等生理特征,传统语音模型对此类数据的适应性较差。数据集构建过程中面临多重挑战:高龄参与者招募困难,需跨越16个省份确保地域多样性;录音环境虽要求安静,但使用多种智能手机设备导致音频质量存在差异;语音转写需处理老年人口语中的特殊发音现象,标注工作复杂度高;同时还需严格遵守伦理规范,保护参与者隐私权益。
常用场景
经典使用场景
在语音技术研究领域,SeniorTalk数据集为超高龄人群的语音处理提供了关键资源。该数据集通过收录75至85岁老年人的自然对话和独立语句,广泛应用于自动语音识别系统的开发与优化。其丰富的年龄特征和地域口音差异,使得模型能够更准确地捕捉老年群体的发音特点,为跨年龄语音分析奠定了数据基础。
解决学术问题
该数据集有效解决了老年语音数据稀缺的学术困境。通过提供包含重叠语音、特殊标记的精细标注,支持说话人验证与分离等前沿研究。其覆盖16个省份的方言特征,为口音适应性模型提供了研究样本,显著推进了语音技术在不同年龄段的普适性研究,填补了该细分领域的空白。
实际应用
在现实场景中,该数据集为适老化智能设备开发提供核心支持。基于其训练的语音模型可应用于老年健康监护系统、智能助老机器人等场景,提升设备对老年用户语音的识别准确率。其自然对话数据还能助力构建更符合老年人交流习惯的智能交互系统,推动银发经济下的技术革新。
数据集最近研究
最新研究方向
在老年语音技术研究领域,SeniorTalk数据集正推动针对超高龄人群的语音处理前沿探索。该数据集凭借其覆盖75至85岁人群的独特语音样本,为克服老年语音识别中的声学变异挑战提供了关键资源。当前研究聚焦于开发鲁棒性更强的自动语音识别系统,以应对老年语音中常见的语速缓慢和发音模糊现象;同时利用其丰富的说话人元数据推进跨地域口音的自适应建模,并在多模态人机交互系统中探索老年语音的情感分析与健康监测应用。这些进展不仅填补了高龄群体语音数据的技术空白,更为构建适老化智能服务奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



