WorldSpeech
收藏Hugging Face2026-05-05 更新2026-05-06 收录
下载链接:
https://huggingface.co/datasets/disco-eth/WorldSpeech
下载链接
链接失效反馈官方服务:
资源简介:
WorldSpeech是一个多语言自动语音识别数据集,包含来自113种语言区域变体的5.3万小时标注语音数据。数据来源包括国家议会记录、公共广播内容、公有领域有声读物以及国际机构(如联合国、国际刑事法院、梵蒂冈广播电台)的语音资料。数据集采用CC-BY-NC-4.0许可协议,规模在1000万到1亿样本之间,适用于语音识别、文本转语音和音频分类任务。特别关注低资源语言和议会场景语音,所有数据均按语言区域划分训练集和测试集,并以Parquet格式存储。
WorldSpeech is a multilingual automatic speech recognition dataset containing 53,000 hours of annotated speech data from 113 language regional variants. Data sources include national parliamentary records, public broadcast content, public domain audiobooks, and speech materials from international institutions (such as the United Nations, the International Criminal Court, and Vatican Radio). The dataset is licensed under CC-BY-NC-4.0, with a scale ranging from 10 million to 100 million samples, and is suitable for speech recognition, text-to-speech, and audio classification tasks. It particularly focuses on low-resource languages and parliamentary scenario speech. All data is divided into training and test sets by language region and stored in Parquet format.
创建时间:
2026-04-28
原始信息汇总
WorldSpeech 数据集详情
数据集概述
WorldSpeech 是一个多语言自动语音识别(ASR)数据集,包含 53,000 小时的转录语音数据,覆盖 113 种语言-地区变体。数据来源包括国家议会、公共广播机构、公共领域有声读物以及国际组织(如联合国、国际刑事法院、梵蒂冈广播电台)。
基本信息
- 许可证: CC-BY-NC-4.0(非商业性使用)
- 数据集大小: 10M < n < 100M
- 任务类别:
- 自动语音识别(Automatic Speech Recognition)
- 文本转语音(Text-to-Speech)
- 音频分类(Audio Classification)
语言覆盖
数据集包含 90 种语言,具体如下:
| 语言代码 | 语言名称 | 语言代码 | 语言名称 | 语言代码 | 语言名称 |
|---|---|---|---|---|---|
| af | 南非荷兰语 | am | 阿姆哈拉语 | ar | 阿拉伯语 |
| az | 阿塞拜疆语 | be | 白俄罗斯语 | bn | 孟加拉语 |
| ca | 加泰罗尼亚语 | ckb | 库尔德语(索拉尼) | cnr | 黑山语 |
| crs | 塞舌尔克里奥尔语 | cs | 捷克语 | de | 德语 |
| dv | 迪维希语 | el | 希腊语 | en | 英语 |
| eo | 世界语 | es | 西班牙语 | fa | 波斯语 |
| fr | 法语 | ga | 爱尔兰语 | grc | 古希腊语 |
| ha | 豪萨语 | he | 希伯来语 | hi | 印地语 |
| hu | 匈牙利语 | hy | 亚美尼亚语 | id | 印尼语 |
| ig | 伊博语 | iu | 因纽特语 | ja | 日语 |
| ka | 格鲁吉亚语 | kk | 哈萨克语 | km | 高棉语 |
| ko | 韩语 | la | 拉丁语 | lb | 卢森堡语 |
| lo | 老挝语 | mfe | 毛里求斯克里奥尔语 | mi | 毛利语 |
| ml | 马拉雅拉姆语 | mn | 蒙古语 | mr | 马拉地语 |
| ms | 马来语 | my | 缅甸语 | ne | 尼泊尔语 |
| nl | 荷兰语 | nr | 南恩德贝莱语 | nso | 北索托语 |
| om | 奥罗莫语 | pa | 旁遮普语 | pl | 波兰语 |
| pt | 葡萄牙语 | rm | 罗曼什语 | ro | 罗马尼亚语 |
| ru | 俄语 | rw | 卢旺达语 | si | 僧伽罗语 |
| sm | 萨摩亚语 | sn | 绍纳语 | sq | 阿尔巴尼亚语 |
| ss | 斯瓦蒂语 | st | 南索托语 | sv | 瑞典语 |
| sw | 斯瓦希里语 | ta | 泰米尔语 | th | 泰语 |
| ti | 提格利尼亚语 | tl | 他加禄语 | tn | 茨瓦纳语 |
| tr | 土耳其语 | ts | 聪加语 | ug | 维吾尔语 |
| uz | 乌兹别克语 | ve | 文达语 | vi | 越南语 |
| xh | 科萨语 | yue | 粤语 | zh | 中文 |
| zu | 祖鲁语 |
数据配置(语言-地区变体)
数据集提供 113 个配置,每个配置对应一种语言-地区变体,包含训练集和测试集。数据以 Parquet 格式存储。部分配置示例如下:
- 南非地区: af_za, nr_za, nso_za, ss_za, st_za, tn_za, ts_za, ve_za, xh_za, zu_za
- 阿拉伯地区: ar_bh, ar_dz, ar_eg, ar_iq, ar_kw, ar_ma, ar_sa, ar_tn, ar_un
- 印度地区: hi_in, ml_in, mr_in, pa_in, te_in, or_in, as_in, ta_in, dgo_in, kn_in, gu_in, bn_in, ur_in, mai_in, ne_in, kok_in
- 欧洲地区: de_at, el_cy, el_gr, es_es, es_ar, es_cl, es_co, es_mx, es_pe, es_pr, es_py, es_uy, fr_ca, fr_cd, fr_ci, nl_be, nl_nl, pl_pl, pt_br, ro_md, ro_ro, ru_by, ru_ru, sq_al, sq_xk, sv_ax, tr_tr
- 其他地区: 包括非洲、亚洲、大洋洲等众多地区变体
标签与特性
- 标签: speech, multilingual, low-resource, parliamentary, asr, tts, audio
- 数据格式: Parquet 文件
- 数据划分: 每个配置包含
train(训练集)和test(测试集)两个划分
搜集汇总
数据集介绍

构建方式
WorldSpeech数据集汇聚了源自多个公共领域的高质量语音资源,其构建过程强调系统性与广泛覆盖。具体而言,数据采集渠道涵盖国家议会会议记录、公共广播公司节目、公有领域有声读物以及国际机构(如联合国、国际刑事法院、梵蒂冈电台)的公开音频。这些音频经过转录与标准化处理,形成了包含53,000小时标注语音的庞大规模,覆盖113种语言-地区变体,数据以Parquet格式存储并提供了训练集与测试集的明确划分。
使用方法
研究者可通过Hugging Face Datasets库直接加载使用WorldSpeech。每个语言-地区变体作为一个独立的配置项,例如加载南非荷兰语(af_za)数据时,可执行`load_dataset("WorldSpeech", "af_za", split="train")`。数据集已预先划分为训练集与测试集,内含原始音频路径和对应转录文本,便于直接用于模型训练与评估。针对部分语言(如印地语hi_in、马来语ml_in),数据文件可能包含来自多个子来源的补充音频,加载时会自动聚合。
背景与挑战
背景概述
WorldSpeech是一个大规模多语种自动语音识别(ASR)数据集,于近期由国际研究团队创建,旨在应对低资源语言语音技术发展的瓶颈。该数据集整合了来自各国议会、公共广播机构、公有领域有声读物以及联合国、国际刑事法院、梵蒂冈广播电台等国际机构的语音资源,涵盖113种语言-地区变体,总计超过5.3万小时的转录语音。其核心研究问题在于如何通过汇集多样化的公开语音数据,推动多语种、尤其是低资源语言的ASR、文本转语音及音频分类任务的发展。WorldSpeech的发布填补了高质量多语种语音数据集匮乏的空白,为全球语音技术研究的公平性提供了重要基础,尤其促进了非洲、南亚等地区语言在人工智能领域的应用。
当前挑战
WorldSpeech在构建与应用中面临多重挑战。首先,低资源语言语音数据匮乏是语音识别领域长期未解的难题,该数据集虽大规模汇聚多语言来源,但部分语言仍存在样本不均衡,且方言、口音及录音环境差异显著,加剧了模型泛化的困难。其次,数据收集过程中需处理各机构不同的版权许可与隐私政策,尽管采用cc-by-nc-4.0协议,但部分来源的原始授权限制可能影响数据可复用性。此外,跨语言转录一致性难以保证,议会等正式场合与有声读物的语音风格迥异,导致标注噪声与语义歧义,对声学模型训练构成额外挑战。
常用场景
经典使用场景
WorldSpeech数据集汇聚了来自全球议会、公共广播机构、公版有声书以及联合国、国际刑事法院、梵蒂冈电台等国际组织的逾五万三千小时多语种语音转写资源,横跨113种语言及地域变体。其经典应用场景聚焦于多语种自动语音识别(ASR)模型的训练与评估,尤其为非洲本土语言、南亚次大陆方言及中欧小语种等低资源语言提供了弥足珍贵的监督学习素材。研究者可基于该数据集的统一格式与丰富语料,构建能够在极端多语环境下稳定运行的端到端语音识别系统。
解决学术问题
该数据集直击语音识别领域中长期存在的低资源语言数据匮乏与语料分布极不均衡的学术困境。通过系统性地整合议会辩论、新闻播报与有声读物等不同声学场景的语音数据,WorldSpeech有效打破了高资源语言与低资源语言之间在训练数据量级上的悬殊差距,使得学界得以深入探究跨语言迁移学习、多任务联合训练以及领域自适应等核心课题。其存在显著提升了低资源语言语音识别基准的完备性,推动了多语种语音技术向更加公平包容的方向演进。
实际应用
在实际产业应用中,WorldSpeech为全球化的智能语音产品提供了坚实的多语种能力底座。国际组织可利用该数据集训练面向多种官方语言的实时语音转写服务,便于会议记录与文件归档;跨国企业在部署智能客服系统时,能够基于其中涵盖的方言变体数据提升对本地化口音的理解精度;此外,公共广播机构可借助该资源开发针对特定地区语言的自动字幕生成工具,从而提升媒体内容的无障碍可及性与跨语言传播效率。
数据集最近研究
最新研究方向
面向低资源语言的多语种语音识别与合成基准研究。WorldSpeech数据集以53,000小时覆盖113种语言区域变体的庞大规模,汇集议会发言、公共广播、有声读物及国际机构等多元化声源,为低资源语言自动语音识别与语音合成提供了前所未有的训练基底。当前前沿方向聚焦于利用该数据集的语种多样性攻克跨语言声学建模、方言适应性表征及小样本优化难题,推动多语种语音技术突破数据瓶颈,助力全球语言数字化包容性发展。
以上内容由遇见数据集搜集并总结生成



