five

数据堂—662小时重口音普通话手机采集语音数据

收藏
魔搭社区2026-01-07 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/662Hours-MandarinHeavyAccentSpeechDataByMobilePhone
下载链接
链接失效反馈
官方服务:
资源简介:
662小时重口音普通话手机采集语音数据由2034名来自河南、陕西、四川、湖南、福建等26省份的中国本土发音人参与录制,男女均衡。662小时重口音普通话手机采集语音数据为带有较严重方言口音的普通话录制,富有地域特点。录音内容包含财经、娱乐、政策、新闻、电视、电影等。

This 662-hour mobile-collected Mandarin speech dataset was recorded by 2,034 native Chinese speakers. The speakers have a balanced gender distribution and come from 26 provinces across China, including Henan, Shaanxi, Sichuan, Hunan, Fujian and others. The dataset consists of Mandarin speech recordings with prominent regional dialect accents, featuring distinct geographical characteristics. The recorded content covers a wide range of topics such as finance, entertainment, government policies, news, TV and film-related content and more.
提供机构:
maas
创建时间:
2024-05-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含662小时通过手机采集的重口音普通话语音数据,用于测试中文语音识别模型。数据来自26个省份的2034名说话人,内容涵盖金融、娱乐等多个领域,格式为16kHz单声道WAV。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务