anforsm/common_voice_11_clean_tokenized
收藏Hugging Face2023-03-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anforsm/common_voice_11_clean_tokenized
下载链接
链接失效反馈官方服务:
资源简介:
Common Voice 11 (en) Cleaned and Tokenized数据集是从Mozilla Common Voice 11数据集的英语部分清理和标记化得到的版本。清理步骤包括过滤样本(样本需有超过2个赞且少于1个踩)和去除音频开头和结尾的非语音部分。标记化过程包括使用Meta的EnCodec进行音频标记化(使用24kHz预训练模型,目标带宽为1.5),并将音频标记表示为audio_token_0到audio_token_1023。提示构建为“text: <common voice transcript>
audio: <audio tokens>”,并使用GPT标记器进行标记化,标记化后的提示填充到大小为1024,并添加eos_token。每个样本包含三个属性:input_ids、attention_mask和labels。
Common Voice 11 (en) Cleaned and Tokenized数据集是从Mozilla Common Voice 11数据集的英语部分清理和标记化得到的版本。清理步骤包括过滤样本(样本需有超过2个赞且少于1个踩)和去除音频开头和结尾的非语音部分。标记化过程包括使用Meta的EnCodec进行音频标记化(使用24kHz预训练模型,目标带宽为1.5),并将音频标记表示为audio_token_0到audio_token_1023。提示构建为“text: <common voice transcript>
audio: <audio tokens>”,并使用GPT标记器进行标记化,标记化后的提示填充到大小为1024,并添加eos_token。每个样本包含三个属性:input_ids、attention_mask和labels。
提供机构:
anforsm
原始信息汇总
数据集概述
基本信息
- 许可证: CC0-1.0
- 语言: 英语 (en)
- 任务类别: 文本到语音 (text-to-speech), 文本生成 (text-generation)
- 数据集名称: Common Voice 11 (en) Cleaned and Tokenized
- 大小类别: 10K<n<100K
数据集特征
- input_ids: 整数序列 (int32)
- attention_mask: 整数序列 (int8)
- labels: 整数序列 (int64)
数据集分割
- 训练集:
- 字节数: 1109542776
- 样本数: 83274
- 验证集:
- 字节数: 17374496
- 样本数: 1304
数据集大小
- 下载大小: 197852035
- 数据集总大小: 1126917272
数据处理
- 清洗步骤:
- 筛选样本:至少2个upvotes,最多1个downvotes
- 移除非语音音频:使用pytorch VAD处理音频的开始和结束部分
- 分词处理:
- 音频分词:使用Meta的EnCodec,24kHz预训练模型,目标带宽1.5
- 文本表示:音频标记为audio_token_0至audio_token_1023
- 提示构建:"text: <common voice transcript> audio: <audio tokens>"
- 提示分词:使用GPT分词器,添加音频标记的词汇
- 分词后填充:填充至大小1024,使用eos_token
样本属性
- input_ids: 分词后的提示
- attention_mask: 注意力掩码
- labels: 分词后的提示



