BabelSpeech-50小时泰语口语化语音数据
收藏魔搭社区2025-12-14 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
## BabelSpeech 50小时泰语口语化ASR语音数据
- 包含50小时泰语口语化ASR语音数据,符合泰语的日常交流模式。
- 元数据存储在一个单独的JSON文件中,包括音频路径、时长、文本置信度、信噪比、DNSMOS。未来可能会添加更多的元数据标签。
- 涵盖领域:科技、娱乐、旅行、教育、生活和其他。
- 数据质量:每批次数据经母语者抽选质检,准确率 > 96.5%,可作为ASR模型的finetune数据。
- 采样率:均为16k
## 数据筛选与质控流程
1. 通过与海外渠道合作,获取涵盖多个领域的优质公开数据来源。
2. 所有数据经过人工二次筛选,剔除嘈杂、场景混乱的片段,确保音质清晰。
3. 数据进入自动化处理流程,完成去噪、增强及结构化清洗。
4. 采用自动化音质检测与多维评分机制,对音频进行优中选优。
5. 结合多模型交叉验证提升转录质量,降低系统性偏差。
6. 最终由母语者抽检,确保整体准确率均在 95%以上。
## 元数据格式
```json
{
"filename": "youtube_th_spk009_9hmrdUksMd4_202509_0041_00.wav",
"relative_path": "wav/youtube_th_spk009_9hmrdUksMd4_202509_0041_00.wav",
"duration": 12.1,
"confidence": 1.0,
"text": "ลักษณะของพวกเส้นขอบที่เขาใช้เนี่ยเขาจะตัดขอบด้วยสีเทาเข้มนะ ถ้าสังเกตจะไม่ค่อยได้ใช้สีดำเท่าไหร่ ถ้าเป็นไปได้นะครับอย่างพวกขาเก้าอี้ หรือว่าเนี่ย",
"snr": 57.75504684448242,
"dnsmos": 4.2270846
}
```
### 示例音频
**示例 1**
[🔊 试听 sample1.wav]()
>
## 数据分布
- SNR分布
<img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/snr_distribution.png" width="400">
- DNSMOS分布
<img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/mos_distribution.png" width="400">
- 时长分布
<img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/duration_distribution.png" width="400">
- confidence分布
<img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/confidence_distribution.png" width="400">
## 联系方式
如果您有任何问题或希望进一步获取更多泰语高品质语音数据,请随时通过电子邮件联系我们的团队:babelspeechai@gmail.com
# BabelSpeech 50小时泰语口语化自动语音识别(ASR)语音数据集
- 包含50小时符合泰语日常交流模式的泰语口语化自动语音识别(ASR)语音数据。
- 元数据存储于独立JSON文件中,涵盖音频路径、时长、文本置信度、信噪比(SNR)、DNSMOS等字段,未来或将新增更多元数据标签。
- 覆盖领域:科技、娱乐、旅行、教育、生活及其他领域。
- 数据质量:每批次数据均经母语者抽样质检,转录准确率大于96.5%,可作为自动语音识别模型的微调(finetune)数据。
- 采样率:均为16kHz
## 数据筛选与质控流程
1. 通过与海外渠道合作,获取覆盖多领域的优质公开数据源。
2. 所有数据经人工二次筛选,剔除嘈杂、场景混乱的音频片段,确保音质清晰。
3. 数据进入自动化处理流程,完成去噪、增强及结构化清洗。
4. 采用自动化音质检测与多维评分机制,对音频进行优中选优。
5. 结合多模型交叉验证提升转录质量,降低系统性偏差。
6. 最终由母语者抽样复检,确保整体转录准确率不低于95%。
## 元数据格式
json
{
"filename": "youtube_th_spk009_9hmrdUksMd4_202509_0041_00.wav",
"relative_path": "wav/youtube_th_spk009_9hmrdUksMd4_202509_0041_00.wav",
"duration": 12.1,
"confidence": 1.0,
"text": "ลักษณะของพวกเส้นขอบที่เขาใช้เนี่ยเขาจะตัดขอบด้วยสีเทาเข้มนะ ถ้าสังเกตจะไม่ค่อยได้ใช้สีดำเท่าไหร่ ถ้าเป็นไปได้นะครับอย่างพวกขาเก้าอี้ หรือว่าเนี่ย",
"snr": 57.75504684448242,
"dnsmos": 4.2270846
}
### 示例音频
**示例 1**
[🔊 试听 sample1.wav]()
>
## 数据分布
- 信噪比(SNR)分布
<img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/snr_distribution.png" width="400">
- DNSMOS分布
<img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/mos_distribution.png" width="400">
- 时长分布
<img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/duration_distribution.png" width="400">
- 文本置信度分布
<img src="https://www.modelscope.cn/datasets/BabelSpeech/50hours_Thai_Real-world_Colloquial_Conversation_and_Monologue_Speech_Dataset/resolve/master/confidence_distribution.png" width="400">
## 联系方式
若您有任何疑问或希望获取更多泰语高品质语音数据,可随时通过电子邮件联系我们的团队:babelspeechai@gmail.com
提供机构:
maas
创建时间:
2025-10-27
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集提供50小时的泰语口语化语音数据,适用于自动语音识别(ASR)任务,涵盖科技、娱乐、旅行等多个日常领域。数据经过严格质控,准确率超过96.5%,采样率为16k,并附带包含音频路径、时长和信噪比等信息的JSON元数据文件。
以上内容由遇见数据集搜集并总结生成



