five

iggy12345/flores-ipa-hin-deva

收藏
Hugging Face2026-03-18 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/iggy12345/flores-ipa-hin-deva
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: int64 - name: iso_639_3 dtype: string - name: iso_15924 dtype: string - name: glottocode dtype: string - name: variant dtype: string - name: text dtype: string - name: url dtype: string - name: domain dtype: string - name: topic dtype: string - name: has_image dtype: string - name: has_hyperlink dtype: string - name: last_updated dtype: string - name: split dtype: string - name: text_phoneme dtype: string - name: text_ipa_stripped dtype: string - name: text_romanized dtype: string splits: - name: dev num_bytes: 1098368 num_examples: 997 - name: devtest num_bytes: 1149414 num_examples: 1012 download_size: 1026227 dataset_size: 2247782 configs: - config_name: default data_files: - split: dev path: data/dev-* - split: devtest path: data/devtest-* ---

数据集信息: 特征字段: - 字段名:id,数据类型:64位整数(int64) - 字段名:iso_639_3,数据类型:字符串(string),即ISO 639-3语言代码(iso_639_3) - 字段名:iso_15924,数据类型:字符串(string),即ISO 15924书写系统代码(iso_15924) - 字段名:glottocode,数据类型:字符串(string),即格罗托语言分类代码(glottocode) - 字段名:variant,数据类型:字符串(string),即语言变体 - 字段名:text,数据类型:字符串(string),即原始文本内容 - 字段名:url,数据类型:字符串(string),即统一资源定位符(URL) - 字段名:domain,数据类型:字符串(string),即文本所属领域 - 字段名:topic,数据类型:字符串(string),即文本主题 - 字段名:has_image,数据类型:字符串(string),即是否包含图像 - 字段名:has_hyperlink,数据类型:字符串(string),即是否包含超链接 - 字段名:last_updated,数据类型:字符串(string),即最后更新时间 - 字段名:split,数据类型:字符串(string),即数据集划分标识 - 字段名:text_phoneme,数据类型:字符串(string),即文本音素序列 - 字段名:text_ipa_stripped,数据类型:字符串(string),即剥离国际音标(IPA)后的文本 - 字段名:text_romanized,数据类型:字符串(string),即罗马字转写文本 数据集划分: - 划分名称:dev(开发集),占用字节数:1098368,样本数量:997 - 划分名称:devtest(开发测试集),占用字节数:1149414,样本数量:1012 下载总大小:1026227 字节,数据集总存储大小:2247782 字节 配置项: - 配置名称:default(默认配置),数据文件配置: - 划分dev:对应数据文件路径为data/dev-* - 划分devtest:对应数据文件路径为data/devtest-*
提供机构:
iggy12345
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作