Porameht/processed-voice-th-169k

Name: Porameht/processed-voice-th-169k
Creator: Porameht
Published: 2024-05-25 16:20:08
License: 暂无描述

Hugging Face2024-05-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Porameht/processed-voice-th-169k

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: sentence dtype: string - name: audio dtype: audio splits: - name: train num_bytes: 3978867550.27 num_examples: 149953 - name: dev num_bytes: 205068304.552 num_examples: 7614 - name: test num_bytes: 327345090.887 num_examples: 11983 download_size: 11966433213 dataset_size: 4511280945.709 configs: - config_name: default data_files: - split: train path: data/train-* - split: dev path: data/dev-* - split: test path: data/test-* task_categories: - automatic-speech-recognition language: - th size_categories: - 100K<n<1M tags: - croissant ---

数据集信息：数据特征： - 字段名：sentence，数据类型：字符串 - 字段名：audio，数据类型：音频数据集拆分： - 拆分名称：训练集（train），字节数：3978867550.27，样本数：149953 - 拆分名称：验证集（dev），字节数：205068304.552，样本数：7614 - 拆分名称：测试集（test），字节数：327345090.887，样本数：11983 下载总大小：11966433213 数据集总大小：4511280945.709 配置项： - 配置名称：默认配置（default），数据文件： - 训练集：路径为data/train-* - 验证集：路径为data/dev-* - 测试集：路径为data/test-* 任务分类：自动语音识别（automatic-speech-recognition）语言：泰语（th）样本规模区间：10万 < 样本数 < 100万标签：croissant

提供机构：

Porameht

原始信息汇总

数据集概述

数据集特征

sentence：字符串类型
audio：音频类型

数据集分割

train：
- 示例数量：149953
- 数据大小：3978867550.27字节
dev：
- 示例数量：7614
- 数据大小：205068304.552字节
test：
- 示例数量：11983
- 数据大小：327345090.887字节

数据集大小

下载大小：11966433213字节
数据集大小：4511280945.709字节

配置信息

config_name：default
data_files：
- train：路径为data/train-*
- dev：路径为data/dev-*
- test：路径为data/test-*

任务类别

automatic-speech-recognition

语言

大小类别

100K<n<1M

搜集汇总

数据集介绍

构建方式

在语音识别领域，高质量的语音-文本配对数据是模型训练的基础。Porameht/processed-voice-th-169k数据集通过系统化的流程构建，其核心在于收集泰语语音片段及对应的文本转录。这些原始数据经过严格的清洗与对齐处理，确保音频与文本内容精确匹配。随后，数据集被划分为训练集、开发集和测试集，以支持模型训练、验证与评估的标准流程，其构建过程体现了数据工程在语音技术中的严谨性。

特点

该数据集专为泰语自动语音识别任务设计，包含近17万条语音-文本对，规模适中，覆盖了丰富的语音场景。其音频特征以标准格式存储，便于直接加载与处理，而文本部分则为纯净的泰语句子。数据集已预先分割为训练、开发和测试子集，为模型性能评估提供了可靠基准。作为专注于单一语言的资源，它在泰语语音技术研究中具有明确的针对性和实用性。

使用方法

研究者可利用该数据集训练或微调泰语自动语音识别模型。典型流程是加载音频文件及其对应文本标签，进行特征提取（如梅尔频谱图）后输入模型。开发集可用于超参数调优与早期停止，测试集则用于最终性能评估。数据集兼容Hugging Face生态系统，能够通过标准数据加载工具高效集成到机器学习管道中，加速泰语语音应用的开发周期。

背景与挑战

背景概述

在语音技术蓬勃发展的时代背景下，泰语作为东南亚地区的重要语言，其语音数据资源的建设显得尤为关键。Porameht/processed-voice-th-169k数据集应运而生，由相关研究团队构建，旨在为泰语自动语音识别领域提供大规模、高质量的标注语音语料。该数据集的核心研究问题聚焦于解决泰语语音数据稀缺的困境，通过提供近17万条经过处理的语音-文本对，为开发鲁棒、准确的泰语ASR模型奠定了数据基础，对推动泰语信息处理技术的发展和语言平等具有重要意义。

当前挑战

该数据集致力于应对泰语自动语音识别任务中的核心挑战，包括泰语复杂的声调系统、连读现象以及方言变体对模型识别准确率构成的严峻考验。在构建过程中，团队同样面临诸多困难：大规模泰语语音数据的采集与清洗需要耗费巨大人力物力；确保音频质量与文本转录的精准对齐是一项精细且繁重的工作；此外，构建覆盖不同年龄、性别、口音及录音环境的代表性样本，以保障数据集的多样性与平衡性，亦是贯穿始终的艰巨任务。

常用场景

经典使用场景

在泰语语音识别领域，Porameht/processed-voice-th-169k数据集以其大规模、高质量的泰语语音-文本配对数据，成为训练和评估端到端自动语音识别（ASR）模型的经典资源。该数据集涵盖了丰富的泰语发音变体和日常对话场景，为研究者提供了构建鲁棒性ASR系统的基准测试平台，尤其在处理泰语特有的声调和复杂音素结构方面展现出显著价值。

衍生相关工作

基于该数据集衍生的经典工作包括泰语端到端ASR模型（如基于Transformer或Conformer的架构）的优化研究，以及多模态语音-文本对齐算法的创新。这些研究不仅推动了泰语语音识别基准性能的持续提升，还催生了针对低资源语言的预训练语音模型（如wav2vec 2.0的泰语适配版本），为后续跨语种语音技术提供了可复现的范式。

数据集最近研究