mrtv_news_voices
收藏Hugging Face2025-06-23 更新2025-06-24 收录
下载链接:
https://huggingface.co/datasets/freococo/mrtv_news_voices
下载链接
链接失效反馈官方服务:
资源简介:
MRTV Voices是一个大规模的缅甸语音数据集,由公开的新闻广播和节目构成,来自缅甸官方国家电视台Myanma Radio and Television (MRTV)。数据集包含超过130,000个短音频片段和对应的转录文本,适合用于自动语音识别(ASR)、语言模型微调、媒体分析以及缅甸语音研究。
创建时间:
2025-06-23
原始信息汇总
MRTV Voices 数据集概述
📜 基本元数据
- 许可证: CC0 1.0 Universal
- 官方名称: MRTV Voices
- 语言: 缅甸语 (my)
- 标签: speech, audio, asr, myanmar, burmese, cc0, webdataset, government-media, mrtv
- 任务类别: 自动语音识别, 音频分类
- 规模: 100K<n<1M
- 总时长: 116小时56分钟
- 片段数量: 130,782
- 分片数量: 1
- 格式: WebDataset (.tar.gz)
🗣️ 数据集简介
MRTV Voices 是一个大规模的缅甸语音数据集,来源于缅甸官方国家媒体 Myanma Radio and Television (MRTV) 公开的新闻广播和节目。
关键特点
- 包含超过 130,000个短音频片段(约117小时)
- 带有自动生成字幕的对齐文本
- 涵盖政府公报和官方报告中使用的正式缅甸语
- 清晰的发音、咬字和节奏,适合ASR训练
- 多样化的语音场景:新闻播报、现场报道、访谈和公告
📂 数据集结构
数据集采用 WebDataset格式 打包为单个 .tar.gz 文件 (mrtv_voices_000001.tar.gz)。
每个音频-文本对包含
.mp3文件:短音频片段(通常1-6秒).json文件:包含文本和上下文信息的元数据
元数据字段
| 字段 | 描述 |
|---|---|
file_name |
片段文件名 |
original_file |
原始MRTV视频文件名 |
transcript |
缅甸语字幕文本 |
duration |
音频时长(秒) |
video_url |
原始视频链接 |
language |
语言代码("my") |
title |
广播或片段的标题 |
description |
附加上下文或社交标题 |
view_count |
观看次数 |
like_count |
点赞数 |
comment_count |
评论数 |
repost_count |
转发/分享数 |
channel |
频道名称(如"MRTV") |
upload_date |
上传日期(YYYYMMDD格式) |
hashtags |
标签列表 |
thumbnail |
缩略图URL |
source |
来源("Myanma Radio and Television") |
⚠️ 局限性
- 宣传内容: 包含民族主义、反民主、反西方或种族偏见观点
- 无人工校正: 约25-35%的文本可能存在拼写错误、标点符号问题或缺失单词
- 审查偏见: 某些话题(如异议、抗议)可能缺失或被歪曲
- 说话人多样性不足: 主要是正式新闻或公关场景,缺乏街头语言、方言和青年俚语
- ASR挑战: 部分字幕对齐不良或分割错误
✅ 使用价值
- 即使丢弃有噪声的样本,仍可保留超过 100,000个高质量的缅甸语音-文本对
- 适合ASR训练、强制对齐或语言模型预训练
- 是目前最大的开放缅甸语音数据集之一
📜 许可证与意图
- 采用 CC0 1.0 Universal 许可证
- 内容来源于MRTV在TikTok上公开可访问的频道
允许用途
- 使用、修改和重新分发数据集
- 训练开源或商业AI模型
- 构建有助于保存缅甸语的工具
- 分析、审计或批判媒体以进行公共问责
禁止用途
- 歪曲数据来源
- 使用声音或文本冒充真实人物或支持意识形态
- 声称拥有原始MRTV媒体内容的所有权
📚 引用格式
bibtex @misc{freococo2025mrtvvoices, title = {MRTV Voices: A Burmese Speech Dataset from State Broadcasts}, author = {freococo}, year = {2025}, howpublished = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/freococo/mrtv_voices} }
搜集汇总
数据集介绍

构建方式
MRTV Voices数据集基于缅甸国家广播电视台(MRTV)公开的新闻广播和节目构建而成,通过自动生成的字幕提取对齐的音频片段和文本转录。数据集包含超过13万个短音频片段,总时长约117小时,采用WebDataset格式进行高效流式处理和模型训练。每个音频片段均配有详细的元数据,涵盖原始视频信息、转录文本、时长、频道来源等丰富字段,为研究者和开发者提供了结构化且可扩展的数据资源。
特点
该数据集以缅甸官方媒体为来源,捕捉了政府公报和官方报道中使用的标准缅甸语,发音清晰、节奏分明,适用于自动语音识别(ASR)训练。数据集涵盖多样化的语音场景,包括新闻播报、现场报道、访谈和公告等,为缅甸语AI系统的开发提供了丰富的语音样本。尽管转录文本可能存在一定误差,但其规模和多样性仍使其成为缅甸语音技术研究的重要资源。
使用方法
用户可通过Hugging Face Datasets库直接加载数据集,支持流式处理以优化内存使用。每个样本包含音频数据(MP3格式)和转录文本(JSON格式),便于快速访问和预处理。数据集适用于自动语音识别、语言模型微调及媒体分析等任务。加载后,用户可提取音频波形、采样率及元数据字段(如频道名称、视频链接等),灵活适配不同研究需求。
背景与挑战
背景概述
MRTV Voices数据集是近年来针对缅甸语语音处理领域的一项重要资源,由缅甸出生的开源倡导者和AI研究者freococo于2025年构建并发布。该数据集基于缅甸官方国营媒体Myanma Radio and Television (MRTV)的公开新闻广播和节目内容,收录了超过13万条短音频片段(约117小时),并配有自动生成的字幕文本。作为目前规模最大的公开缅甸语语音数据集之一,它系统性地收录了政府公报、新闻报道、访谈等多种语境下的标准缅甸语发音,为自动语音识别(ASR)、语言模型微调等研究提供了珍贵素材。该数据集特别填补了东南亚语言在语音技术领域的资源空白,对推动缅甸语在全球化AI浪潮中的代表性具有战略意义。
当前挑战
该数据集面临多重挑战:在领域问题层面,缅甸语作为低资源语言,其复杂的声调系统和方言变体对ASR模型的音素建模提出严峻考验;而政府媒体单一语域的特性,导致数据集缺乏日常对话、俚语等多样化语音场景。在构建过程中,自动字幕存在的25-35%错误率(包括拼写错误、标点异常等问题)直接影响数据质量;军事政权对媒体内容的审查控制造成话题分布偏差,抗议、异见等敏感内容被系统性排除;此外,音频片段与字幕的错位分割也增加了数据清洗的复杂度。这些因素共同制约了数据集在构建鲁棒性语音系统时的直接可用性。
常用场景
经典使用场景
在缅甸语语音识别研究中,MRTV Voices数据集因其包含大量正式缅甸语新闻广播内容而成为经典训练资源。该数据集特别适合构建自动语音识别系统,其清晰的发音和规范的语法结构为模型提供了高质量的学习样本。研究人员可利用该数据集训练端到端ASR模型,或进行声学模型与语言模型的联合优化。
衍生相关工作
该数据集已催生多项重要研究,包括基于Transformer的缅甸语端到端语音识别系统、缅甸方言语音转换模型等。部分工作聚焦于数据清洗方法,针对自动生成字幕的噪声问题提出了有效的过滤算法。另有研究利用该数据集探索了低资源语言的多模态预训练技术。
数据集最近研究
最新研究方向
近年来,随着低资源语言自动语音识别(ASR)技术的快速发展,缅甸语作为东南亚重要语言之一,其相关研究逐渐受到学界关注。MRTV Voices数据集的发布为缅甸语ASR系统开发提供了重要资源,尤其在政府公告、新闻播报等正式语境下的语音建模方面具有独特价值。当前前沿研究主要围绕三个方向展开:一是基于该数据集构建端到端缅甸语ASR系统,探索Transformer等新型架构在低资源语言上的迁移学习效果;二是结合语音识别与自然语言处理技术,分析缅甸官方媒体的语言特征与传播模式;三是针对数据集存在的自动字幕噪声问题,开发鲁棒性更强的语音文本对齐算法。该数据集的应用不仅推动了缅甸语数字鸿沟的弥合,也为研究军事政权控制下的媒体语言特征提供了实证基础。
以上内容由遇见数据集搜集并总结生成



