BabelSpeech-50小时泰语口语化语音数据

Name: BabelSpeech-50小时泰语口语化语音数据
Creator: maas
Published: 2025-12-14 23:05:46
License: 暂无描述

魔搭社区2025-12-14 更新2025-11-03 收录

下载链接：

https://modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

## BabelSpeech 50小时泰语口语化ASR语音数据 - 包含50小时泰语口语化ASR语音数据，符合泰语的日常交流模式。 - 元数据存储在一个单独的JSON文件中，包括音频路径、时长、文本置信度、信噪比、DNSMOS。未来可能会添加更多的元数据标签。 - 涵盖领域：科技、娱乐、旅行、教育、生活和其他。 - 数据质量：每批次数据经母语者抽选质检，准确率 > 96.5%，可作为ASR模型的finetune数据。 - 采样率：均为16k ## 数据筛选与质控流程 1. 通过与海外渠道合作，获取涵盖多个领域的优质公开数据来源。 2. 所有数据经过人工二次筛选，剔除嘈杂、场景混乱的片段，确保音质清晰。 3. 数据进入自动化处理流程，完成去噪、增强及结构化清洗。 4. 采用自动化音质检测与多维评分机制，对音频进行优中选优。 5. 结合多模型交叉验证提升转录质量，降低系统性偏差。 6. 最终由母语者抽检，确保整体准确率均在 95%以上。 ## 元数据格式 ```json { "filename": "youtube_th_spk009_9hmrdUksMd4_202509_0041_00.wav", "relative_path": "wav/youtube_th_spk009_9hmrdUksMd4_202509_0041_00.wav", "duration": 12.1, "confidence": 1.0, "text": "ลักษณะของพวกเส้นขอบที่เขาใช้เนี่ยเขาจะตัดขอบด้วยสีเทาเข้มนะ ถ้าสังเกตจะไม่ค่อยได้ใช้สีดำเท่าไหร่ ถ้าเป็นไปได้นะครับอย่างพวกขาเก้าอี้ หรือว่าเนี่ย", "snr": 57.75504684448242, "dnsmos": 4.2270846 } ``` ### 示例音频 **示例 1** [🔊 试听 sample1.wav]() > ## 数据分布 - SNR分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/snr_distribution.png" width="400"> - DNSMOS分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/mos_distribution.png" width="400"> - 时长分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/duration_distribution.png" width="400"> - confidence分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/confidence_distribution.png" width="400"> ## 联系方式如果您有任何问题或希望进一步获取更多泰语高品质语音数据，请随时通过电子邮件联系我们的团队：babelspeechai@gmail.com

# BabelSpeech 50小时泰语口语化自动语音识别（ASR）语音数据集 - 包含50小时符合泰语日常交流模式的泰语口语化自动语音识别（ASR）语音数据。 - 元数据存储于独立JSON文件中，涵盖音频路径、时长、文本置信度、信噪比（SNR）、DNSMOS等字段，未来或将新增更多元数据标签。 - 覆盖领域：科技、娱乐、旅行、教育、生活及其他领域。 - 数据质量：每批次数据均经母语者抽样质检，转录准确率大于96.5%，可作为自动语音识别模型的微调（finetune）数据。 - 采样率：均为16kHz ## 数据筛选与质控流程 1. 通过与海外渠道合作，获取覆盖多领域的优质公开数据源。 2. 所有数据经人工二次筛选，剔除嘈杂、场景混乱的音频片段，确保音质清晰。 3. 数据进入自动化处理流程，完成去噪、增强及结构化清洗。 4. 采用自动化音质检测与多维评分机制，对音频进行优中选优。 5. 结合多模型交叉验证提升转录质量，降低系统性偏差。 6. 最终由母语者抽样复检，确保整体转录准确率不低于95%。 ## 元数据格式 json { "filename": "youtube_th_spk009_9hmrdUksMd4_202509_0041_00.wav", "relative_path": "wav/youtube_th_spk009_9hmrdUksMd4_202509_0041_00.wav", "duration": 12.1, "confidence": 1.0, "text": "ลักษณะของพวกเส้นขอบที่เขาใช้เนี่ยเขาจะตัดขอบด้วยสีเทาเข้มนะ ถ้าสังเกตจะไม่ค่อยได้ใช้สีดำเท่าไหร่ ถ้าเป็นไปได้นะครับอย่างพวกขาเก้าอี้ หรือว่าเนี่ย", "snr": 57.75504684448242, "dnsmos": 4.2270846 } ### 示例音频 **示例 1** [🔊 试听 sample1.wav]() > ## 数据分布 - 信噪比（SNR）分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/snr_distribution.png" width="400"> - DNSMOS分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/mos_distribution.png" width="400"> - 时长分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/duration_distribution.png" width="400"> - 文本置信度分布 <img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/confidence_distribution.png" width="400"> ## 联系方式若您有任何疑问或希望获取更多泰语高品质语音数据，可随时通过电子邮件联系我们的团队：babelspeechai@gmail.com

提供机构：

maas

创建时间：

2025-10-27

搜集汇总

数据集介绍