five

NathanRoll/global-news-radio-30s

收藏
Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/NathanRoll/global-news-radio-30s
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - multilingual task_categories: - automatic-speech-recognition tags: - audio - radio - news - multilingual - speech license: cc-by-4.0 size_categories: - n<1K --- # Global News Radio Dataset Multilingual **news** radio recordings from 51 languages across 42 countries. | | | |---|---| | **Recordings** | 51 | | **Total audio** | 1500 min (25.0 h) | | **Format** | MP3 16kHz mono 64kbps | | **Parquet shards** | 11 | | **Languages** | 51 | | **Countries** | 42 | | **Size** | 687 MB | ## Languages Amharic, Arabic, Bashkir, Basque, Belarusian, Bengali, Brazilian Portuguese,Portugues Do Brasil,Português Brasil, Catalan, Croatian, Czech, Danish, Dutch, English, Estonian, Faroese, Finnish, Flemish, French, Georgian, German, Greek, Haitian Creole, Hebrew, Hindi, Hokkien, Hungarian, Icelandic, Indonesian, Japanese, Kazakh, Korean, Kurdish, Latvian, Luganda, Mongolian, Nepali, Norwegian, Ossetian, Persian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tamil, Telugu ## Usage ```python from datasets import load_dataset ds = load_dataset("NathanRoll/global-news-radio-30s") sample = ds["train"][0] print(sample["station_name"], sample["language"]) ``` ## Source [Radio Browser API](https://www.radio-browser.info/) via pyradios. Built with streaming append-only shard uploads — each parquet shard is uploaded once and never re-uploaded. ## License Metadata: CC-BY-4.0. Audio from public radio broadcasts.
提供机构:
NathanRoll
搜集汇总
数据集介绍
main_image_url
构建方式
在全球化媒体融合的背景下,Global News Radio数据集通过Radio Browser API及pyradios工具,系统采集了来自42个国家、51种语言的公共广播新闻音频。数据构建采用流式追加分片上传技术,将总计25小时的MP3格式录音分割为11个Parquet分片,每个分片上传后即固定,避免了重复操作,确保了数据源的时效性与可扩展性。这一过程不仅覆盖了从阿姆哈拉语到泰卢固语的多语言频谱,还保持了音频格式的一致性,为跨语言语音研究提供了结构化基础。
特点
该数据集的核心特点在于其广泛的多语言覆盖与新闻领域的专一性,收录了1500分钟的广播新闻录音,涉及51种语言和42个国家,充分体现了全球语言多样性。音频以16kHz单声道、64kbps的MP3格式统一存储,兼顾了音质与存储效率。数据集中每个样本均标注了电台名称和语言标签,便于研究者进行语言识别、语音转换或跨文化媒体分析。其规模虽不足千条,但内容精炼、来源可靠,特别适合用于小样本学习或多语言语音处理模型的验证与优化。
使用方法
利用该数据集时,用户可通过Hugging Face的datasets库直接加载,执行`load_dataset('NathanRoll/global-news-radio-30s')`即可访问训练集。每个样本包含音频文件及元数据,如电台名称和语言标识,支持自动语音识别、语言检测等任务。研究者可结合多语言模型进行端到端分析,或提取音频特征以探索新闻广播中的声学模式。由于数据以分片形式组织,处理时需注意流式读取以优化内存使用,同时遵守CC-BY-4.0许可,确保在学术或开源项目中合规使用音频与元数据。
背景与挑战
背景概述
随着全球化进程的加速,多语言语音处理技术成为人工智能领域的前沿研究方向。全球新闻广播数据集(global-news-radio-30s)由NathanRoll等人于近年构建,依托Radio Browser API通过pyradios工具采集,涵盖了来自42个国家的51种语言的新闻广播录音。该数据集的核心研究问题在于支持多语言自动语音识别系统的开发与评估,尤其关注低资源语言在真实广播环境下的语音数据稀缺性。通过提供总计25小时的MP3格式音频,它促进了跨语言语音模型的泛化能力研究,对推动语音技术的包容性与实用性具有显著影响力。
当前挑战
该数据集旨在解决多语言自动语音识别领域的关键挑战,即如何有效处理低资源语言在真实广播场景中的语音变异性,包括口音差异、背景噪音和快速语速等问题。在构建过程中,研究人员面临数据采集与处理的复杂性,例如从公共广播流中提取并标准化多国音频格式,确保语言覆盖的广泛性与代表性,同时需平衡数据质量与规模,以应对版权和元数据标注的合规性要求。这些挑战凸显了构建高质量多语言语音数据集的固有难度。
常用场景
经典使用场景
在语音技术研究领域,Global News Radio数据集为多语言自动语音识别系统提供了宝贵的训练与评估资源。该数据集收录了来自42个国家、涵盖51种语言的新闻广播录音,其内容以标准化的新闻播报为主,语音清晰且背景噪声较低,非常适合用于构建跨语言的语音识别模型。研究者常利用这些数据来训练端到端的语音识别系统,或进行多语言语音特征的对比分析,以探索语言间的声学差异与共性。
实际应用
在实际应用中,Global News Radio数据集能够支持开发面向全球的智能新闻监测与内容分析系统。基于该数据集训练的模型可用于实时转录多语言广播新闻,辅助媒体机构进行新闻摘要生成、话题追踪或舆情分析。此外,在教育和翻译领域,这些清晰的新闻录音可作为语言学习材料或语音翻译系统的输入源,帮助打破语言障碍,促进国际信息的高效流通与理解。
衍生相关工作
围绕该数据集,已衍生出一系列专注于多语言语音处理的经典研究工作。例如,研究者利用其训练统一的语音识别模型,以探索参数共享与语言适配策略;亦有工作结合该数据与其他语料,进行低资源语言语音识别增强或跨语言声学模型预训练。这些研究不仅提升了多语言语音技术的性能,还推动了如XLSR、Whisper等知名模型在数据构建与训练方法上的创新,丰富了语音人工智能的学术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作