five

mrtv_news_voices

收藏
Hugging Face2025-06-23 更新2025-06-24 收录
下载链接:
https://huggingface.co/datasets/freococo/mrtv_news_voices
下载链接
链接失效反馈
官方服务:
资源简介:
MRTV Voices是一个大规模的缅甸语音数据集,由公开的新闻广播和节目构成,来自缅甸官方国家电视台Myanma Radio and Television (MRTV)。数据集包含超过130,000个短音频片段和对应的转录文本,适合用于自动语音识别(ASR)、语言模型微调、媒体分析以及缅甸语音研究。
创建时间:
2025-06-23
原始信息汇总

MRTV Voices 数据集概述

📜 基本元数据

  • 许可证: CC0 1.0 Universal
  • 官方名称: MRTV Voices
  • 语言: 缅甸语 (my)
  • 标签: speech, audio, asr, myanmar, burmese, cc0, webdataset, government-media, mrtv
  • 任务类别: 自动语音识别, 音频分类
  • 规模: 100K<n<1M
  • 总时长: 116小时56分钟
  • 片段数量: 130,782
  • 分片数量: 1
  • 格式: WebDataset (.tar.gz)

🗣️ 数据集简介

MRTV Voices 是一个大规模的缅甸语音数据集,来源于缅甸官方国家媒体 Myanma Radio and Television (MRTV) 公开的新闻广播和节目。

关键特点

  • 包含超过 130,000个短音频片段(约117小时)
  • 带有自动生成字幕的对齐文本
  • 涵盖政府公报和官方报告中使用的正式缅甸语
  • 清晰的发音、咬字和节奏,适合ASR训练
  • 多样化的语音场景:新闻播报、现场报道、访谈和公告

📂 数据集结构

数据集采用 WebDataset格式 打包为单个 .tar.gz 文件 (mrtv_voices_000001.tar.gz)。

每个音频-文本对包含

  • .mp3 文件:短音频片段(通常1-6秒)
  • .json 文件:包含文本和上下文信息的元数据

元数据字段

字段 描述
file_name 片段文件名
original_file 原始MRTV视频文件名
transcript 缅甸语字幕文本
duration 音频时长(秒)
video_url 原始视频链接
language 语言代码("my")
title 广播或片段的标题
description 附加上下文或社交标题
view_count 观看次数
like_count 点赞数
comment_count 评论数
repost_count 转发/分享数
channel 频道名称(如"MRTV")
upload_date 上传日期(YYYYMMDD格式)
hashtags 标签列表
thumbnail 缩略图URL
source 来源("Myanma Radio and Television")

⚠️ 局限性

  • 宣传内容: 包含民族主义、反民主、反西方或种族偏见观点
  • 无人工校正: 约25-35%的文本可能存在拼写错误、标点符号问题或缺失单词
  • 审查偏见: 某些话题(如异议、抗议)可能缺失或被歪曲
  • 说话人多样性不足: 主要是正式新闻或公关场景,缺乏街头语言、方言和青年俚语
  • ASR挑战: 部分字幕对齐不良或分割错误

✅ 使用价值

  • 即使丢弃有噪声的样本,仍可保留超过 100,000个高质量的缅甸语音-文本对
  • 适合ASR训练、强制对齐或语言模型预训练
  • 是目前最大的开放缅甸语音数据集之一

📜 许可证与意图

  • 采用 CC0 1.0 Universal 许可证
  • 内容来源于MRTV在TikTok上公开可访问的频道

允许用途

  • 使用、修改和重新分发数据集
  • 训练开源或商业AI模型
  • 构建有助于保存缅甸语的工具
  • 分析、审计或批判媒体以进行公共问责

禁止用途

  • 歪曲数据来源
  • 使用声音或文本冒充真实人物或支持意识形态
  • 声称拥有原始MRTV媒体内容的所有权

📚 引用格式

bibtex @misc{freococo2025mrtvvoices, title = {MRTV Voices: A Burmese Speech Dataset from State Broadcasts}, author = {freococo}, year = {2025}, howpublished = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/freococo/mrtv_voices} }

搜集汇总
数据集介绍
main_image_url
构建方式
MRTV Voices数据集基于缅甸国家广播电视台(MRTV)公开的新闻广播和节目构建而成,通过自动生成的字幕提取对齐的音频片段和文本转录。数据集包含超过13万个短音频片段,总时长约117小时,采用WebDataset格式进行高效流式处理和模型训练。每个音频片段均配有详细的元数据,涵盖原始视频信息、转录文本、时长、频道来源等丰富字段,为研究者和开发者提供了结构化且可扩展的数据资源。
特点
该数据集以缅甸官方媒体为来源,捕捉了政府公报和官方报道中使用的标准缅甸语,发音清晰、节奏分明,适用于自动语音识别(ASR)训练。数据集涵盖多样化的语音场景,包括新闻播报、现场报道、访谈和公告等,为缅甸语AI系统的开发提供了丰富的语音样本。尽管转录文本可能存在一定误差,但其规模和多样性仍使其成为缅甸语音技术研究的重要资源。
使用方法
用户可通过Hugging Face Datasets库直接加载数据集,支持流式处理以优化内存使用。每个样本包含音频数据(MP3格式)和转录文本(JSON格式),便于快速访问和预处理。数据集适用于自动语音识别、语言模型微调及媒体分析等任务。加载后,用户可提取音频波形、采样率及元数据字段(如频道名称、视频链接等),灵活适配不同研究需求。
背景与挑战
背景概述
MRTV Voices数据集是近年来针对缅甸语语音处理领域的一项重要资源,由缅甸出生的开源倡导者和AI研究者freococo于2025年构建并发布。该数据集基于缅甸官方国营媒体Myanma Radio and Television (MRTV)的公开新闻广播和节目内容,收录了超过13万条短音频片段(约117小时),并配有自动生成的字幕文本。作为目前规模最大的公开缅甸语语音数据集之一,它系统性地收录了政府公报、新闻报道、访谈等多种语境下的标准缅甸语发音,为自动语音识别(ASR)、语言模型微调等研究提供了珍贵素材。该数据集特别填补了东南亚语言在语音技术领域的资源空白,对推动缅甸语在全球化AI浪潮中的代表性具有战略意义。
当前挑战
该数据集面临多重挑战:在领域问题层面,缅甸语作为低资源语言,其复杂的声调系统和方言变体对ASR模型的音素建模提出严峻考验;而政府媒体单一语域的特性,导致数据集缺乏日常对话、俚语等多样化语音场景。在构建过程中,自动字幕存在的25-35%错误率(包括拼写错误、标点异常等问题)直接影响数据质量;军事政权对媒体内容的审查控制造成话题分布偏差,抗议、异见等敏感内容被系统性排除;此外,音频片段与字幕的错位分割也增加了数据清洗的复杂度。这些因素共同制约了数据集在构建鲁棒性语音系统时的直接可用性。
常用场景
经典使用场景
在缅甸语语音识别研究中,MRTV Voices数据集因其包含大量正式缅甸语新闻广播内容而成为经典训练资源。该数据集特别适合构建自动语音识别系统,其清晰的发音和规范的语法结构为模型提供了高质量的学习样本。研究人员可利用该数据集训练端到端ASR模型,或进行声学模型与语言模型的联合优化。
衍生相关工作
该数据集已催生多项重要研究,包括基于Transformer的缅甸语端到端语音识别系统、缅甸方言语音转换模型等。部分工作聚焦于数据清洗方法,针对自动生成字幕的噪声问题提出了有效的过滤算法。另有研究利用该数据集探索了低资源语言的多模态预训练技术。
数据集最近研究
最新研究方向
近年来,随着低资源语言自动语音识别(ASR)技术的快速发展,缅甸语作为东南亚重要语言之一,其相关研究逐渐受到学界关注。MRTV Voices数据集的发布为缅甸语ASR系统开发提供了重要资源,尤其在政府公告、新闻播报等正式语境下的语音建模方面具有独特价值。当前前沿研究主要围绕三个方向展开:一是基于该数据集构建端到端缅甸语ASR系统,探索Transformer等新型架构在低资源语言上的迁移学习效果;二是结合语音识别与自然语言处理技术,分析缅甸官方媒体的语言特征与传播模式;三是针对数据集存在的自动字幕噪声问题,开发鲁棒性更强的语音文本对齐算法。该数据集的应用不仅推动了缅甸语数字鸿沟的弥合,也为研究军事政权控制下的媒体语言特征提供了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作