five

ShoukanLabs/BabblePhon

收藏
Hugging Face2024-07-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ShoukanLabs/BabblePhon
下载链接
链接失效反馈
官方服务:
资源简介:
BabblePhon数据集包含12,406个文本-音素对,这些对是合成的,用于训练机器学习模型。每个条目由一段文本和其对应的音素转录组成。数据集的主要目标是作为资源用于训练文本到文本的模型,将文本翻译成上下文感知的音素转录。数据生成时使用了特定的提示,要求将文本转录为国际音标(IPA)。数据集未经过手动清理,可能包含错误和不准确之处,因此使用时需谨慎。数据集可用于自然语言处理任务,特别是涉及音素转录的任务,但建议进行额外的预处理和验证以解决潜在的数据不一致问题。

BabblePhon数据集包含12,406个文本-音素对,这些对是合成的,用于训练机器学习模型。每个条目由一段文本和其对应的音素转录组成。数据集的主要目标是作为资源用于训练文本到文本的模型,将文本翻译成上下文感知的音素转录。数据生成时使用了特定的提示,要求将文本转录为国际音标(IPA)。数据集未经过手动清理,可能包含错误和不准确之处,因此使用时需谨慎。数据集可用于自然语言处理任务,特别是涉及音素转录的任务,但建议进行额外的预处理和验证以解决潜在的数据不一致问题。
提供机构:
ShoukanLabs
原始信息汇总

数据集概述

基本信息

  • 数据集名称: BabblePhon
  • 数据集大小: 2838381字节
  • 下载大小: 1835746字节
  • 训练集大小: 2838381字节
  • 训练集样本数: 12406

数据结构

  • 特征:
    • original: 字符串类型
    • phonemes: 字符串类型

任务类别

  • 文本到文本生成
  • 文本到音频
  • 翻译

语言

  • 英语 (en)

标签

  • Phonemes
  • Text2Text
  • Text2Phonemes

数据集描述

  • 包含12,406个文本-音素对,用于训练机器学习模型,将文本转换为上下文感知的音素转录。
  • 数据集未经过手动清洗,可能包含错误和不准确之处。

使用建议

  • 建议用户在使用前进行额外的预处理和验证,以解决潜在的数据不一致性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作