five

BabelSpeech-50小时马来语口语化语音数据

收藏
魔搭社区2026-04-29 更新2025-10-11 收录
下载链接:
https://modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
## BabelSpeech 50小时马来语口语化ASR语音数据 - 包含50小时马来语口语化ASR语音数据,符合马来语英语混杂的日常交流模式。 - 元数据存储在一个单独的JSON文件中,包括音频路径、时长、文本置信度、信噪比、DNSMOS。未来可能会添加更多的元数据标签。 - 涵盖领域:科技、娱乐、旅行、教育、生活和其他。 - 数据质量:每批次数据经母语者抽选质检,准确率 > 98%,可作为ASR模型的finetune数据。 - 采样率:均为16k ## 数据筛选与质控流程 1. 通过与海外渠道合作,获取涵盖多个领域的优质公开数据来源。 2. 所有数据经过人工二次筛选,剔除嘈杂、场景混乱的片段,确保音质清晰。 3. 数据进入自动化处理流程,完成去噪、增强及结构化清洗。 4. 采用自动化音质检测与多维评分机制,对音频进行优中选优。 5. 结合多模型交叉验证提升转录质量,降低系统性偏差。 6. 最终由母语者抽检,确保整体准确率均在 95%以上。 ## 元数据格式 ```json { "filename": "youtube_ma_spk005_Rcl6dRZg-Os_202509_0013_00.wav", "relative_path": "wav/youtube_ma_spk005_Rcl6dRZg-Os_202509_0013_00.wav", "duration": 5.4, "confidence": 1.0, "text": " Ada dua lampu dekat sini. Ada dua lampu untuk suluh dia time dia streaming lah kot.", "snr": 54.93885803222656, "dnsmos": 4.4429564 } ``` ### 示例音频 **示例 1** [🔊 试听 sample1.wav](https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/example1.wav) > Ada dua lampu dekat sini. Ada dua lampu untuk suluh dia time dia streaming lah kot. ## 数据分布 - SNR分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/snr_distribution.jpg" width="400"> - DNSMOS分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/mos_distribution.jpg" width="400"> - 时长分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/duration_distribution.jpg" width="400"> - confidence分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/confidence_distribution.jpg" width="400"> ## 联系方式 如果您有任何问题或希望进一步获取更多马来语高品质语音数据,请随时通过电子邮件联系我们的团队:babelspeechai@gmail.com

# BabelSpeech 50小时马来语口语化自动语音识别(ASR, Automatic Speech Recognition)数据集 - 本数据集包含50小时马来语口语化自动语音识别语音数据,适配马来语与英语混杂的日常交流场景。 - 元数据存储于独立JSON文件中,涵盖音频文件路径、时长、文本置信度、信噪比(SNR, Signal-to-Noise Ratio)、DNSMOS评分,后续或将新增更多元数据标签。 - 覆盖领域包括科技、娱乐、出行、教育、日常生活及其他场景。 - 数据质量方面,每批次数据均经过母语者抽样质检,转录准确率超过98%,可作为自动语音识别模型的微调(fine-tune)训练数据。 - 采样率统一为16kHz。 ## 数据筛选与质控流程 1. 依托海外合作渠道,采集多领域优质公开数据源。 2. 对全部数据开展人工二次筛查,剔除音质嘈杂、场景混乱的片段,保障音频清晰度。 3. 数据进入自动化处理链路,完成去噪、音质增强及结构化清洗操作。 4. 引入自动化音质检测与多维评分机制,对音频进行精细化筛选,优中选优。 5. 采用多模型交叉验证方案提升转录质量,降低系统性偏差。 6. 最终由母语者进行抽样复核,保障整体转录准确率不低于95%。 ## 元数据格式规范 json { "filename": "youtube_ma_spk005_Rcl6dRZg-Os_202509_0013_00.wav", "relative_path": "wav/youtube_ma_spk005_Rcl6dRZg-Os_202509_0013_00.wav", "duration": 5.4, "confidence": 1.0, "text": " Ada dua lampu dekat sini. Ada dua lampu untuk suluh dia time dia streaming lah kot.", "snr": 54.93885803222656, "dnsmos": 4.4429564 } ### 示例音频 **示例1** [🔊 试听 sample1.wav](https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/example1.wav) > Ada dua lampu dekat sini. Ada dua lampu untuk suluh dia time dia streaming lah kot. ## 数据分布 - 信噪比分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/snr_distribution.jpg" width="400"> - DNSMOS评分分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/mos_distribution.jpg" width="400"> - 时长分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/duration_distribution.jpg" width="400"> - 文本置信度分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Malay_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/confidence_distribution.jpg" width="400"> ## 联系方式 若您有任何疑问,或希望获取更多马来语高品质语音数据,可随时通过邮件联系我们的团队:babelspeechai@gmail.com
提供机构:
maas
创建时间:
2025-10-05
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含50小时马来语口语化ASR语音数据,覆盖多个日常领域,经过严格质量控制确保高准确率。数据附带详细元信息,适合用于ASR模型微调。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务