mrtv_news_voices

Hugging Face2025-06-23 更新2025-06-24 收录

下载链接：

https://huggingface.co/datasets/freococo/mrtv_news_voices

下载链接

链接失效反馈

官方服务：

资源简介：

MRTV Voices是一个大规模的缅甸语音数据集，由公开的新闻广播和节目构成，来自缅甸官方国家电视台Myanma Radio and Television (MRTV)。数据集包含超过130,000个短音频片段和对应的转录文本，适合用于自动语音识别（ASR）、语言模型微调、媒体分析以及缅甸语音研究。

创建时间：

2025-06-23

原始信息汇总

MRTV Voices 数据集概述

📜 基本元数据

许可证: CC0 1.0 Universal
官方名称: MRTV Voices
语言: 缅甸语 (my)
标签: speech, audio, asr, myanmar, burmese, cc0, webdataset, government-media, mrtv
任务类别: 自动语音识别, 音频分类
规模: 100K<n<1M
总时长: 116小时56分钟
片段数量: 130,782
分片数量: 1
格式: WebDataset (.tar.gz)

🗣️ 数据集简介

MRTV Voices 是一个大规模的缅甸语音数据集，来源于缅甸官方国家媒体 Myanma Radio and Television (MRTV) 公开的新闻广播和节目。

关键特点

包含超过 130,000个短音频片段（约117小时）
带有自动生成字幕的对齐文本
涵盖政府公报和官方报告中使用的正式缅甸语
清晰的发音、咬字和节奏，适合ASR训练
多样化的语音场景：新闻播报、现场报道、访谈和公告

📂 数据集结构

数据集采用 WebDataset格式 打包为单个 .tar.gz 文件 (mrtv_voices_000001.tar.gz)。

每个音频-文本对包含

.mp3 文件：短音频片段（通常1-6秒）
.json 文件：包含文本和上下文信息的元数据

元数据字段

字段	描述
`file_name`	片段文件名
`original_file`	原始MRTV视频文件名
`transcript`	缅甸语字幕文本
`duration`	音频时长（秒）
`video_url`	原始视频链接
`language`	语言代码（"my"）
`title`	广播或片段的标题
`description`	附加上下文或社交标题
`view_count`	观看次数
`like_count`	点赞数
`comment_count`	评论数
`repost_count`	转发/分享数
`channel`	频道名称（如"MRTV"）
`upload_date`	上传日期（YYYYMMDD格式）
`hashtags`	标签列表
`thumbnail`	缩略图URL
`source`	来源（"Myanma Radio and Television"）

⚠️ 局限性

宣传内容: 包含民族主义、反民主、反西方或种族偏见观点
无人工校正: 约25-35%的文本可能存在拼写错误、标点符号问题或缺失单词
审查偏见: 某些话题（如异议、抗议）可能缺失或被歪曲
说话人多样性不足: 主要是正式新闻或公关场景，缺乏街头语言、方言和青年俚语
ASR挑战: 部分字幕对齐不良或分割错误

✅ 使用价值

即使丢弃有噪声的样本，仍可保留超过 100,000个高质量的缅甸语音-文本对
适合ASR训练、强制对齐或语言模型预训练
是目前最大的开放缅甸语音数据集之一

📜 许可证与意图

采用 CC0 1.0 Universal 许可证
内容来源于MRTV在TikTok上公开可访问的频道

允许用途

使用、修改和重新分发数据集
训练开源或商业AI模型
构建有助于保存缅甸语的工具
分析、审计或批判媒体以进行公共问责

禁止用途

歪曲数据来源
使用声音或文本冒充真实人物或支持意识形态
声称拥有原始MRTV媒体内容的所有权

📚 引用格式

bibtex @misc{freococo2025mrtvvoices, title = {MRTV Voices: A Burmese Speech Dataset from State Broadcasts}, author = {freococo}, year = {2025}, howpublished = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/freococo/mrtv_voices} }

搜集汇总

数据集介绍

构建方式

MRTV Voices数据集基于缅甸国家广播电视台（MRTV）公开的新闻广播和节目构建而成，通过自动生成的字幕提取对齐的音频片段和文本转录。数据集包含超过13万个短音频片段，总时长约117小时，采用WebDataset格式进行高效流式处理和模型训练。每个音频片段均配有详细的元数据，涵盖原始视频信息、转录文本、时长、频道来源等丰富字段，为研究者和开发者提供了结构化且可扩展的数据资源。

特点

该数据集以缅甸官方媒体为来源，捕捉了政府公报和官方报道中使用的标准缅甸语，发音清晰、节奏分明，适用于自动语音识别（ASR）训练。数据集涵盖多样化的语音场景，包括新闻播报、现场报道、访谈和公告等，为缅甸语AI系统的开发提供了丰富的语音样本。尽管转录文本可能存在一定误差，但其规模和多样性仍使其成为缅甸语音技术研究的重要资源。

使用方法

用户可通过Hugging Face Datasets库直接加载数据集，支持流式处理以优化内存使用。每个样本包含音频数据（MP3格式）和转录文本（JSON格式），便于快速访问和预处理。数据集适用于自动语音识别、语言模型微调及媒体分析等任务。加载后，用户可提取音频波形、采样率及元数据字段（如频道名称、视频链接等），灵活适配不同研究需求。

背景与挑战

背景概述

MRTV Voices数据集是近年来针对缅甸语语音处理领域的一项重要资源，由缅甸出生的开源倡导者和AI研究者freococo于2025年构建并发布。该数据集基于缅甸官方国营媒体Myanma Radio and Television (MRTV)的公开新闻广播和节目内容，收录了超过13万条短音频片段（约117小时），并配有自动生成的字幕文本。作为目前规模最大的公开缅甸语语音数据集之一，它系统性地收录了政府公报、新闻报道、访谈等多种语境下的标准缅甸语发音，为自动语音识别(ASR)、语言模型微调等研究提供了珍贵素材。该数据集特别填补了东南亚语言在语音技术领域的资源空白，对推动缅甸语在全球化AI浪潮中的代表性具有战略意义。

当前挑战

该数据集面临多重挑战：在领域问题层面，缅甸语作为低资源语言，其复杂的声调系统和方言变体对ASR模型的音素建模提出严峻考验；而政府媒体单一语域的特性，导致数据集缺乏日常对话、俚语等多样化语音场景。在构建过程中，自动字幕存在的25-35%错误率（包括拼写错误、标点异常等问题）直接影响数据质量；军事政权对媒体内容的审查控制造成话题分布偏差，抗议、异见等敏感内容被系统性排除；此外，音频片段与字幕的错位分割也增加了数据清洗的复杂度。这些因素共同制约了数据集在构建鲁棒性语音系统时的直接可用性。

常用场景

经典使用场景

在缅甸语语音识别研究中，MRTV Voices数据集因其包含大量正式缅甸语新闻广播内容而成为经典训练资源。该数据集特别适合构建自动语音识别系统，其清晰的发音和规范的语法结构为模型提供了高质量的学习样本。研究人员可利用该数据集训练端到端ASR模型，或进行声学模型与语言模型的联合优化。

衍生相关工作

该数据集已催生多项重要研究，包括基于Transformer的缅甸语端到端语音识别系统、缅甸方言语音转换模型等。部分工作聚焦于数据清洗方法，针对自动生成字幕的噪声问题提出了有效的过滤算法。另有研究利用该数据集探索了低资源语言的多模态预训练技术。

数据集最近研究