WorldSpeech

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/disco-eth/WorldSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

WorldSpeech是一个多语言自动语音识别数据集，包含来自113种语言区域变体的5.3万小时标注语音数据。数据来源包括国家议会记录、公共广播内容、公有领域有声读物以及国际机构（如联合国、国际刑事法院、梵蒂冈广播电台）的语音资料。数据集采用CC-BY-NC-4.0许可协议，规模在1000万到1亿样本之间，适用于语音识别、文本转语音和音频分类任务。特别关注低资源语言和议会场景语音，所有数据均按语言区域划分训练集和测试集，并以Parquet格式存储。

WorldSpeech is a multilingual automatic speech recognition dataset containing 53,000 hours of annotated speech data from 113 language regional variants. Data sources include national parliamentary records, public broadcast content, public domain audiobooks, and speech materials from international institutions (such as the United Nations, the International Criminal Court, and Vatican Radio). The dataset is licensed under CC-BY-NC-4.0, with a scale ranging from 10 million to 100 million samples, and is suitable for speech recognition, text-to-speech, and audio classification tasks. It particularly focuses on low-resource languages and parliamentary scenario speech. All data is divided into training and test sets by language region and stored in Parquet format.

创建时间：

2026-04-28

原始信息汇总

WorldSpeech 数据集详情

数据集概述

WorldSpeech 是一个多语言自动语音识别（ASR）数据集，包含 53,000 小时的转录语音数据，覆盖 113 种语言-地区变体。数据来源包括国家议会、公共广播机构、公共领域有声读物以及国际组织（如联合国、国际刑事法院、梵蒂冈广播电台）。

基本信息

许可证: CC-BY-NC-4.0（非商业性使用）
数据集大小: 10M < n < 100M
任务类别:
- 自动语音识别（Automatic Speech Recognition）
- 文本转语音（Text-to-Speech）
- 音频分类（Audio Classification）

语言覆盖

数据集包含 90 种语言，具体如下：

语言代码	语言名称	语言代码	语言名称	语言代码	语言名称
af	南非荷兰语	am	阿姆哈拉语	ar	阿拉伯语
az	阿塞拜疆语	be	白俄罗斯语	bn	孟加拉语
ca	加泰罗尼亚语	ckb	库尔德语（索拉尼）	cnr	黑山语
crs	塞舌尔克里奥尔语	cs	捷克语	de	德语
dv	迪维希语	el	希腊语	en	英语
eo	世界语	es	西班牙语	fa	波斯语
fr	法语	ga	爱尔兰语	grc	古希腊语
ha	豪萨语	he	希伯来语	hi	印地语
hu	匈牙利语	hy	亚美尼亚语	id	印尼语
ig	伊博语	iu	因纽特语	ja	日语
ka	格鲁吉亚语	kk	哈萨克语	km	高棉语
ko	韩语	la	拉丁语	lb	卢森堡语
lo	老挝语	mfe	毛里求斯克里奥尔语	mi	毛利语
ml	马拉雅拉姆语	mn	蒙古语	mr	马拉地语
ms	马来语	my	缅甸语	ne	尼泊尔语
nl	荷兰语	nr	南恩德贝莱语	nso	北索托语
om	奥罗莫语	pa	旁遮普语	pl	波兰语
pt	葡萄牙语	rm	罗曼什语	ro	罗马尼亚语
ru	俄语	rw	卢旺达语	si	僧伽罗语
sm	萨摩亚语	sn	绍纳语	sq	阿尔巴尼亚语
ss	斯瓦蒂语	st	南索托语	sv	瑞典语
sw	斯瓦希里语	ta	泰米尔语	th	泰语
ti	提格利尼亚语	tl	他加禄语	tn	茨瓦纳语
tr	土耳其语	ts	聪加语	ug	维吾尔语
uz	乌兹别克语	ve	文达语	vi	越南语
xh	科萨语	yue	粤语	zh	中文
zu	祖鲁语

数据配置（语言-地区变体）

数据集提供 113 个配置，每个配置对应一种语言-地区变体，包含训练集和测试集。数据以 Parquet 格式存储。部分配置示例如下：

南非地区: af_za, nr_za, nso_za, ss_za, st_za, tn_za, ts_za, ve_za, xh_za, zu_za
阿拉伯地区: ar_bh, ar_dz, ar_eg, ar_iq, ar_kw, ar_ma, ar_sa, ar_tn, ar_un
印度地区: hi_in, ml_in, mr_in, pa_in, te_in, or_in, as_in, ta_in, dgo_in, kn_in, gu_in, bn_in, ur_in, mai_in, ne_in, kok_in
欧洲地区: de_at, el_cy, el_gr, es_es, es_ar, es_cl, es_co, es_mx, es_pe, es_pr, es_py, es_uy, fr_ca, fr_cd, fr_ci, nl_be, nl_nl, pl_pl, pt_br, ro_md, ro_ro, ru_by, ru_ru, sq_al, sq_xk, sv_ax, tr_tr
其他地区: 包括非洲、亚洲、大洋洲等众多地区变体

标签与特性

标签: speech, multilingual, low-resource, parliamentary, asr, tts, audio
数据格式: Parquet 文件
数据划分: 每个配置包含 train（训练集）和 test（测试集）两个划分

搜集汇总

数据集介绍

构建方式

WorldSpeech数据集汇聚了源自多个公共领域的高质量语音资源，其构建过程强调系统性与广泛覆盖。具体而言，数据采集渠道涵盖国家议会会议记录、公共广播公司节目、公有领域有声读物以及国际机构（如联合国、国际刑事法院、梵蒂冈电台）的公开音频。这些音频经过转录与标准化处理，形成了包含53,000小时标注语音的庞大规模，覆盖113种语言-地区变体，数据以Parquet格式存储并提供了训练集与测试集的明确划分。

使用方法

研究者可通过Hugging Face Datasets库直接加载使用WorldSpeech。每个语言-地区变体作为一个独立的配置项，例如加载南非荷兰语（af_za）数据时，可执行`load_dataset("WorldSpeech", "af_za", split="train")`。数据集已预先划分为训练集与测试集，内含原始音频路径和对应转录文本，便于直接用于模型训练与评估。针对部分语言（如印地语hi_in、马来语ml_in），数据文件可能包含来自多个子来源的补充音频，加载时会自动聚合。

背景与挑战

背景概述

WorldSpeech是一个大规模多语种自动语音识别（ASR）数据集，于近期由国际研究团队创建，旨在应对低资源语言语音技术发展的瓶颈。该数据集整合了来自各国议会、公共广播机构、公有领域有声读物以及联合国、国际刑事法院、梵蒂冈广播电台等国际机构的语音资源，涵盖113种语言-地区变体，总计超过5.3万小时的转录语音。其核心研究问题在于如何通过汇集多样化的公开语音数据，推动多语种、尤其是低资源语言的ASR、文本转语音及音频分类任务的发展。WorldSpeech的发布填补了高质量多语种语音数据集匮乏的空白，为全球语音技术研究的公平性提供了重要基础，尤其促进了非洲、南亚等地区语言在人工智能领域的应用。

当前挑战

WorldSpeech在构建与应用中面临多重挑战。首先，低资源语言语音数据匮乏是语音识别领域长期未解的难题，该数据集虽大规模汇聚多语言来源，但部分语言仍存在样本不均衡，且方言、口音及录音环境差异显著，加剧了模型泛化的困难。其次，数据收集过程中需处理各机构不同的版权许可与隐私政策，尽管采用cc-by-nc-4.0协议，但部分来源的原始授权限制可能影响数据可复用性。此外，跨语言转录一致性难以保证，议会等正式场合与有声读物的语音风格迥异，导致标注噪声与语义歧义，对声学模型训练构成额外挑战。

常用场景

经典使用场景

WorldSpeech数据集汇聚了来自全球议会、公共广播机构、公版有声书以及联合国、国际刑事法院、梵蒂冈电台等国际组织的逾五万三千小时多语种语音转写资源，横跨113种语言及地域变体。其经典应用场景聚焦于多语种自动语音识别（ASR）模型的训练与评估，尤其为非洲本土语言、南亚次大陆方言及中欧小语种等低资源语言提供了弥足珍贵的监督学习素材。研究者可基于该数据集的统一格式与丰富语料，构建能够在极端多语环境下稳定运行的端到端语音识别系统。

解决学术问题

该数据集直击语音识别领域中长期存在的低资源语言数据匮乏与语料分布极不均衡的学术困境。通过系统性地整合议会辩论、新闻播报与有声读物等不同声学场景的语音数据，WorldSpeech有效打破了高资源语言与低资源语言之间在训练数据量级上的悬殊差距，使得学界得以深入探究跨语言迁移学习、多任务联合训练以及领域自适应等核心课题。其存在显著提升了低资源语言语音识别基准的完备性，推动了多语种语音技术向更加公平包容的方向演进。

实际应用

在实际产业应用中，WorldSpeech为全球化的智能语音产品提供了坚实的多语种能力底座。国际组织可利用该数据集训练面向多种官方语言的实时语音转写服务，便于会议记录与文件归档；跨国企业在部署智能客服系统时，能够基于其中涵盖的方言变体数据提升对本地化口音的理解精度；此外，公共广播机构可借助该资源开发针对特定地区语言的自动字幕生成工具，从而提升媒体内容的无障碍可及性与跨语言传播效率。

数据集最近研究