ShoukanLabs/BabblePhon

Name: ShoukanLabs/BabblePhon
Creator: ShoukanLabs
Published: 2024-07-12 04:11:53
License: 暂无描述

Hugging Face2024-07-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ShoukanLabs/BabblePhon

下载链接

链接失效反馈

官方服务：

资源简介：

BabblePhon数据集包含12,406个文本-音素对，这些对是合成的，用于训练机器学习模型。每个条目由一段文本和其对应的音素转录组成。数据集的主要目标是作为资源用于训练文本到文本的模型，将文本翻译成上下文感知的音素转录。数据生成时使用了特定的提示，要求将文本转录为国际音标（IPA）。数据集未经过手动清理，可能包含错误和不准确之处，因此使用时需谨慎。数据集可用于自然语言处理任务，特别是涉及音素转录的任务，但建议进行额外的预处理和验证以解决潜在的数据不一致问题。

提供机构：

ShoukanLabs

原始信息汇总

数据集概述

基本信息

数据集名称: BabblePhon
数据集大小: 2838381字节
下载大小: 1835746字节
训练集大小: 2838381字节
训练集样本数: 12406

数据结构

特征:
- original: 字符串类型
- phonemes: 字符串类型

任务类别

文本到文本生成
文本到音频
翻译

语言

英语 (en)

数据集描述

包含12,406个文本-音素对，用于训练机器学习模型，将文本转换为上下文感知的音素转录。
数据集未经过手动清洗，可能包含错误和不准确之处。

使用建议

建议用户在使用前进行额外的预处理和验证，以解决潜在的数据不一致性。

5,000+

优质数据集

54 个

任务类型

进入经典数据集