mrtv_voices

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/freococo/mrtv_voices

下载链接

链接失效反馈

官方服务：

资源简介：

MRTV Voices是一个大规模的缅甸语语音数据集，由公开可用的新闻广播和节目构成，这些节目由缅甸官方国家运行的媒体频道Myanma Radio and Television (MRTV)播出。该数据集包含了超过130,000个短音频片段（约117小时），并附有自动生成的字幕转录文本。数据集捕捉了正式的缅甸语使用、清晰的发音、语调和节奏，适合自动语音识别（ASR）训练，并包含多样化的语音背景：新闻朗读、现场报道、访谈和公告等。

创建时间：

2025-06-20

原始信息汇总

MRTV Voices 数据集概述

📜 基本信息

许可证: CC0 1.0 Universal
语言: 缅甸语 (my)
标签: speech, audio, asr, myanmar, burmese, cc0, webdataset, government-media, mrtv
任务类别: automatic-speech-recognition, audio-classification
规模: 100K<n<1M
总时长: 116小时56分钟
片段数量: 130,782
分片数量: 1
格式: WebDataset (.tar.gz)

🗣️ 数据集概述

来源: 缅甸官方国营媒体频道Myanma Radio and Television (MRTV)的新闻广播和节目
内容: 超过130,000个短音频片段（约117小时），带有自动生成的字幕对齐文本
特点:
- 正式缅甸语，用于政府公告和官方报告
- 清晰的发音、发音和节奏，适合ASR训练
- 多样化的语音环境：新闻阅读、现场报道、采访和公告

📂 数据集结构

格式: 单个.tar.gz存档（mrtv_voices_000001.tar.gz），使用WebDataset格式
每个音频-文本对包括:
- .mp3文件：短音频片段（通常1-6秒）
- .json文件：包含转录和上下文信息的元数据文件
元数据字段:
- file_name, original_file, transcript, duration, video_url, language, title, description, view_count, like_count, comment_count, repost_count, channel, upload_date, hashtags, thumbnail, source

🚀 使用方法

加载方式:
- Hugging Face Datasets (load_dataset(..., streaming=True))
- WebDataset for PyTorch
- 自定义Python脚本
示例代码: python from datasets import load_dataset ds = load_dataset("freococo/mrtv_voices", data_files="train/mrtv_voices_000001.tar.gz", split="train", streaming=True)

⚠️ 局限性

内容倾向性: MRTV是军方运营的国营广播公司，内容可能包含民族主义、反民主、反西方或种族偏见观点
转录质量: 所有转录直接从TikTok自动字幕抓取，未经过人工编辑，约25-35%可能存在拼写错误、标点符号问题或缺失单词
审查偏见: 由于政权编辑控制，某些话题（如异议、抗议）可能缺失或被歪曲
说话人多样性: 大多数片段来自正式的新闻或公关环境，街头演讲、方言和青年俚语代表性不足
ASR挑战: 一些字幕对齐不佳或分割错误，可能影响训练质量

📜 许可证和意图

许可证: CC0 1.0 Universal
内容来源: 公开可访问的缅甸国营缅甸广播电视（MRTV）频道在TikTok上的内容
允许用途:
- 使用、修改和重新分发此数据集
- 训练开源或商业AI模型
- 构建有助于保护缅甸语言的工具
- 分析、审计或批评媒体以进行公共问责
禁止用途:
- 歪曲数据来源
- 使用声音或转录冒充真实人物或支持意识形态
- 声称拥有原始MRTV媒体内容的所有权

📚 引用

bibtex @misc{freococo2025mrtvvoices, title = {MRTV Voices: A Burmese Speech Dataset from State Broadcasts}, author = {freococo}, year = {2025}, howpublished = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/freococo/mrtv_voices} }

搜集汇总

数据集介绍

构建方式

MRTV Voices数据集通过系统性地采集缅甸国家广播电视台（MRTV）公开播出的新闻节目构建而成，采用自动化流程从TikTok平台获取带自动生成字幕的原视频，经技术处理分割为13万余条短音频片段，每段均包含精确到秒级的时长标记和原始字幕文本。数据集以WebDataset格式封装为单一压缩包，采用UUID命名规范确保文件唯一性，并完整保留包括收视数据、频道信息和发布时间在内的18项元数据字段。

使用方法

研究者可通过Hugging Face Datasets库的流式加载功能直接访问数据集，利用内置元数据字段进行样本筛选与分析。典型工作流程包括：初始化数据集流、迭代访问音频文件及关联JSON元数据，根据transcript字段获取缅甸语文本，结合duration等字段实现时长过滤。该数据集兼容PyTorch的WebDataset处理流程，也支持自定义脚本解析，适用于语音识别模型训练、媒体内容分析等多模态研究场景。

背景与挑战

背景概述

MRTV Voices数据集是一个专注于缅甸语语音识别研究的大规模语音数据集，由缅甸官方媒体Myanma Radio and Television (MRTV)的公开新闻广播和节目构建而成。该数据集创建于2025年，由缅甸籍开源倡导者和AI研究员freococo主导开发，旨在填补缅甸语在语音和语言技术领域的空白。数据集包含超过13万条短音频片段（约117小时），每条音频均配有自动生成的字幕文本转录。这些数据涵盖了政府公报、新闻报道、采访和公告等多种语境下的正式缅甸语，发音清晰、节奏明确，为自动语音识别（ASR）和语言模型微调等任务提供了丰富的资源。MRTV Voices的发布不仅推动了缅甸语语音技术的发展，也为语言保护和文化遗产的数字化提供了重要支持。

当前挑战

MRTV Voices数据集在构建和应用过程中面临多重挑战。首先，数据来源的局限性使得数据集内容偏向于政府宣传和官方立场，可能包含民族主义、反民主或种族偏见等倾向性内容，这对模型的公平性和多样性提出了挑战。其次，所有转录文本均来自TikTok自动生成的字幕，未经人工校正，导致约25-35%的转录存在拼写错误、标点符号问题或缺失词汇，影响了数据的质量。此外，由于缅甸军政府的审查制度，数据集在话题覆盖上存在明显偏差，例如缺乏异议或抗议等敏感话题的表达。在语音多样性方面，数据集主要以正式新闻和公关场景为主，街头口语、方言和青年俚语的代表性不足。最后，部分字幕与音频对齐不佳或分段错误，可能对ASR模型的训练效果产生负面影响。尽管存在这些挑战，MRTV Voices仍是目前最大规模的开源缅甸语语音数据集之一，为相关研究提供了宝贵的基础资源。

常用场景

经典使用场景

在缅甸语语音识别技术的研究中，MRTV Voices数据集因其包含大量正式缅甸语发音的音频片段及其对应文本，成为训练自动语音识别（ASR）系统的理想选择。该数据集特别适用于需要高清晰度发音和标准语速的研究场景，如新闻播报和政府公告的语音转写。数据集的结构化设计和丰富的元数据进一步提升了其在语音技术开发中的实用性。

解决学术问题

MRTV Voices数据集解决了缅甸语语音识别研究中数据稀缺的核心问题，为学术界提供了首个大规模、高质量且带有对齐文本的缅甸语语音资源。其覆盖的多样化语音场景（如新闻播报、访谈等）为研究缅甸语在不同语境下的语音特征提供了实证基础，显著推动了低资源语言的语音技术发展。

实际应用

该数据集的实际应用涵盖多个领域，包括但不限于缅甸语智能助手的开发、政府公告的自动化处理以及媒体内容的语义分析。其清晰的发音和标准化的语速使其成为教育领域语言学习工具开发的宝贵资源，同时也为跨国企业提供了缅甸语语音技术落地的数据支撑。

数据集最近研究