five

anforsm/common_voice_11_clean_tokenized

收藏
Hugging Face2023-03-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anforsm/common_voice_11_clean_tokenized
下载链接
链接失效反馈
官方服务:
资源简介:
Common Voice 11 (en) Cleaned and Tokenized数据集是从Mozilla Common Voice 11数据集的英语部分清理和标记化得到的版本。清理步骤包括过滤样本(样本需有超过2个赞且少于1个踩)和去除音频开头和结尾的非语音部分。标记化过程包括使用Meta的EnCodec进行音频标记化(使用24kHz预训练模型,目标带宽为1.5),并将音频标记表示为audio_token_0到audio_token_1023。提示构建为“text: <common voice transcript> audio: <audio tokens>”,并使用GPT标记器进行标记化,标记化后的提示填充到大小为1024,并添加eos_token。每个样本包含三个属性:input_ids、attention_mask和labels。

Common Voice 11 (en) Cleaned and Tokenized数据集是从Mozilla Common Voice 11数据集的英语部分清理和标记化得到的版本。清理步骤包括过滤样本(样本需有超过2个赞且少于1个踩)和去除音频开头和结尾的非语音部分。标记化过程包括使用Meta的EnCodec进行音频标记化(使用24kHz预训练模型,目标带宽为1.5),并将音频标记表示为audio_token_0到audio_token_1023。提示构建为“text: <common voice transcript> audio: <audio tokens>”,并使用GPT标记器进行标记化,标记化后的提示填充到大小为1024,并添加eos_token。每个样本包含三个属性:input_ids、attention_mask和labels。
提供机构:
anforsm
原始信息汇总

数据集概述

基本信息

  • 许可证: CC0-1.0
  • 语言: 英语 (en)
  • 任务类别: 文本到语音 (text-to-speech), 文本生成 (text-generation)
  • 数据集名称: Common Voice 11 (en) Cleaned and Tokenized
  • 大小类别: 10K<n<100K

数据集特征

  • input_ids: 整数序列 (int32)
  • attention_mask: 整数序列 (int8)
  • labels: 整数序列 (int64)

数据集分割

  • 训练集:
    • 字节数: 1109542776
    • 样本数: 83274
  • 验证集:
    • 字节数: 17374496
    • 样本数: 1304

数据集大小

  • 下载大小: 197852035
  • 数据集总大小: 1126917272

数据处理

  • 清洗步骤:
    • 筛选样本:至少2个upvotes,最多1个downvotes
    • 移除非语音音频:使用pytorch VAD处理音频的开始和结束部分
  • 分词处理:
    • 音频分词:使用Meta的EnCodec,24kHz预训练模型,目标带宽1.5
    • 文本表示:音频标记为audio_token_0至audio_token_1023
    • 提示构建:"text: <common voice transcript> audio: <audio tokens>"
    • 提示分词:使用GPT分词器,添加音频标记的词汇
    • 分词后填充:填充至大小1024,使用eos_token

样本属性

  • input_ids: 分词后的提示
  • attention_mask: 注意力掩码
  • labels: 分词后的提示
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作