global-news-radio-30s

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/NathanRoll/global-news-radio-30s

下载链接

链接失效反馈

官方服务：

资源简介：

Global News Radio Dataset 是一个多语言新闻广播录音数据集，包含来自42个国家51种语言的广播内容。数据集总计1500分钟（25小时）的音频，格式为MP3 16kHz单声道64kbps，总大小为687 MB。录音内容涵盖多种语言的新闻广播，适用于自动语音识别等任务。数据集通过Radio Browser API获取，音频来自公共广播，元数据采用CC-BY-4.0许可。使用示例展示了如何通过HuggingFace的datasets库加载数据集。

创建时间：

2026-03-28

原始信息汇总

Global News Radio Dataset 数据集概述

数据集基本信息

数据集名称: Global News Radio Dataset
主要用途: 自动语音识别
内容类型: 音频
主题: 新闻广播
语言: 多语言
许可协议: CC-BY-4.0
规模类别: n<1K

数据规模与格式

录音数量: 51
总音频时长: 1500分钟 (25.0小时)
音频格式: MP3 16kHz 单声道 64kbps
Parquet分片数量: 11
覆盖语言数量: 51
覆盖国家数量: 42
数据集大小: 687 MB

覆盖语言列表

Amharic, Arabic, Bashkir, Basque, Belarusian, Bengali, Brazilian Portuguese, Portugues Do Brasil, Português Brasil, Catalan, Croatian, Czech, Danish, Dutch, English, Estonian, Faroese, Finnish, Flemish, French, Georgian, German, Greek, Haitian Creole, Hebrew, Hindi, Hokkien, Hungarian, Icelandic, Indonesian, Japanese, Kazakh, Korean, Kurdish, Latvian, Luganda, Mongolian, Nepali, Norwegian, Ossetian, Persian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tamil, Telugu

使用方法

可通过以下代码加载数据集： python from datasets import load_dataset ds = load_dataset("NathanRoll/global-news-radio-30s") sample = ds["train"][0] print(sample["station_name"], sample["language"])

数据来源

主要来源: Radio Browser API (https://www.radio-browser.info/) via pyradios
构建方式: 采用流式追加分片上传，每个parquet分片仅上传一次且永不重新上传

许可信息

元数据: 采用CC-BY-4.0许可
音频: 来自公共广播电台

搜集汇总

数据集介绍

构建方式

在新闻广播领域，全球新闻广播数据集的构建依托于Radio Browser API这一公开资源，通过pyradios工具实现了自动化采集。该过程采用流式追加分片上传技术，将来自42个国家、涵盖51种语言的新闻广播录音分割为30秒片段，并以MP3格式（16kHz单声道，64kbps）存储为11个Parquet分片，确保了数据的高效整合与可扩展性。

特点

该数据集以其多语言和地理多样性为核心特点，收录了从阿姆哈拉语到祖鲁语等51种语言的新闻广播内容，覆盖全球主要区域的文化与语言背景。音频总时长达25小时，格式统一且轻量，便于处理；同时，所有数据均源自公共广播，具有明确的CC-BY-4.0许可，为语音识别和多语言研究提供了丰富而合法的语料基础。

使用方法

利用该数据集时，研究者可通过Hugging Face的datasets库直接加载，使用load_dataset函数调用“NathanRoll/global-news-radio-30s”即可访问训练分片。每个样本包含电台名称和语言标签，支持快速检索与分析，适用于自动语音识别、多语言模型训练等任务，为跨语言语音处理研究提供了便捷的接口。

背景与挑战

背景概述

随着全球化进程加速，多语言语音识别技术成为人机交互领域的关键研究方向。Global News Radio数据集由研究人员Nathan Roll于近年构建，依托Radio Browser API采集公开广播流，整合了来自42个国家、涵盖51种语言的新闻广播录音，总计约25小时音频。该数据集聚焦于多语言新闻语音的自动识别与理解，旨在为低资源语言提供语音数据支持，推动语音技术在跨语言信息获取、媒体监测等应用场景的发展，对促进语言技术公平性与包容性具有重要价值。

当前挑战

该数据集致力于解决多语言自动语音识别中低资源语言数据匮乏的核心问题，其挑战在于新闻广播常包含专业术语、快速语速及背景音乐干扰，增加了语音识别的难度。构建过程中，面临音频质量参差不齐、语言标注一致性维护，以及从流媒体实时采集时数据格式统一与版权合规性等挑战，这些因素共同影响了数据集的规模扩展与应用可靠性。

常用场景

经典使用场景

在语音技术研究领域，多语言新闻广播数据集为自动语音识别系统的开发提供了关键资源。该数据集汇集了51种语言的新闻广播录音，覆盖全球42个国家和地区，其内容具有清晰的发音和标准的广播语调，特别适合用于训练和评估跨语言语音识别模型。研究者常利用这些数据构建基准测试集，以验证模型在多样语言环境下的泛化能力，推动语音识别技术向更广泛的语种扩展。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括多语言语音识别基准测试框架的构建与低资源语言语音模型的优化。研究者利用其丰富的语种覆盖，开发了跨语言预训练方法，如基于迁移学习的声学模型，这些工作显著提升了小语种语音识别的准确率。此外，该数据集还促进了语音语种识别与方言检测技术的进步，为后续大规模多语言语音数据集的采集与标注提供了重要参考范式。

数据集最近研究