ShoukanLabs/BabblePhon
收藏Hugging Face2024-07-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ShoukanLabs/BabblePhon
下载链接
链接失效反馈官方服务:
资源简介:
BabblePhon数据集包含12,406个文本-音素对,这些对是合成的,用于训练机器学习模型。每个条目由一段文本和其对应的音素转录组成。数据集的主要目标是作为资源用于训练文本到文本的模型,将文本翻译成上下文感知的音素转录。数据生成时使用了特定的提示,要求将文本转录为国际音标(IPA)。数据集未经过手动清理,可能包含错误和不准确之处,因此使用时需谨慎。数据集可用于自然语言处理任务,特别是涉及音素转录的任务,但建议进行额外的预处理和验证以解决潜在的数据不一致问题。
BabblePhon数据集包含12,406个文本-音素对,这些对是合成的,用于训练机器学习模型。每个条目由一段文本和其对应的音素转录组成。数据集的主要目标是作为资源用于训练文本到文本的模型,将文本翻译成上下文感知的音素转录。数据生成时使用了特定的提示,要求将文本转录为国际音标(IPA)。数据集未经过手动清理,可能包含错误和不准确之处,因此使用时需谨慎。数据集可用于自然语言处理任务,特别是涉及音素转录的任务,但建议进行额外的预处理和验证以解决潜在的数据不一致问题。
提供机构:
ShoukanLabs
原始信息汇总
数据集概述
基本信息
- 数据集名称: BabblePhon
- 数据集大小: 2838381字节
- 下载大小: 1835746字节
- 训练集大小: 2838381字节
- 训练集样本数: 12406
数据结构
- 特征:
original: 字符串类型phonemes: 字符串类型
任务类别
- 文本到文本生成
- 文本到音频
- 翻译
语言
- 英语 (
en)
标签
- Phonemes
- Text2Text
- Text2Phonemes
数据集描述
- 包含12,406个文本-音素对,用于训练机器学习模型,将文本转换为上下文感知的音素转录。
- 数据集未经过手动清洗,可能包含错误和不准确之处。
使用建议
- 建议用户在使用前进行额外的预处理和验证,以解决潜在的数据不一致性。



