mugezhang/8lang_multirepr_pretrain_interleaved
收藏Hugging Face2026-03-26 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/mugezhang/8lang_multirepr_pretrain_interleaved
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
dataset_info:
features:
- name: text
dtype: string
- name: language
dtype: string
- name: phonemes
dtype: string
- name: ipa_stripped
dtype: string
- name: romanized
dtype: string
splits:
- name: train
num_bytes: 870819457851
num_examples: 44589672
download_size: 464407973973
dataset_size: 870819457851
---
---
数据集配置:
- 配置名称:default
数据文件:
- 数据集划分:训练集
文件路径:data/train-*
数据集详情:
数据特征:
- 特征名:文本(text)
数据类型:字符串
- 特征名:语言(language)
数据类型:字符串
- 特征名:音素(phonemes)
数据类型:字符串
- 特征名:剥离国际音标(International Phonetic Alphabet)后的文本(ipa_stripped)
数据类型:字符串
- 特征名:罗马化文本(romanized)
数据类型:字符串
数据集划分信息:
- 划分名称:训练集
总字节数:870819457851
样本总数:44589672
下载大小:464407973973
数据集总大小:870819457851
---
提供机构:
mugezhang



