iggy12345/flores-ipa-hin-deva
收藏Hugging Face2026-03-18 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/iggy12345/flores-ipa-hin-deva
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: iso_639_3
dtype: string
- name: iso_15924
dtype: string
- name: glottocode
dtype: string
- name: variant
dtype: string
- name: text
dtype: string
- name: url
dtype: string
- name: domain
dtype: string
- name: topic
dtype: string
- name: has_image
dtype: string
- name: has_hyperlink
dtype: string
- name: last_updated
dtype: string
- name: split
dtype: string
- name: text_phoneme
dtype: string
- name: text_ipa_stripped
dtype: string
- name: text_romanized
dtype: string
splits:
- name: dev
num_bytes: 1098368
num_examples: 997
- name: devtest
num_bytes: 1149414
num_examples: 1012
download_size: 1026227
dataset_size: 2247782
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: devtest
path: data/devtest-*
---
数据集信息:
特征字段:
- 字段名:id,数据类型:64位整数(int64)
- 字段名:iso_639_3,数据类型:字符串(string),即ISO 639-3语言代码(iso_639_3)
- 字段名:iso_15924,数据类型:字符串(string),即ISO 15924书写系统代码(iso_15924)
- 字段名:glottocode,数据类型:字符串(string),即格罗托语言分类代码(glottocode)
- 字段名:variant,数据类型:字符串(string),即语言变体
- 字段名:text,数据类型:字符串(string),即原始文本内容
- 字段名:url,数据类型:字符串(string),即统一资源定位符(URL)
- 字段名:domain,数据类型:字符串(string),即文本所属领域
- 字段名:topic,数据类型:字符串(string),即文本主题
- 字段名:has_image,数据类型:字符串(string),即是否包含图像
- 字段名:has_hyperlink,数据类型:字符串(string),即是否包含超链接
- 字段名:last_updated,数据类型:字符串(string),即最后更新时间
- 字段名:split,数据类型:字符串(string),即数据集划分标识
- 字段名:text_phoneme,数据类型:字符串(string),即文本音素序列
- 字段名:text_ipa_stripped,数据类型:字符串(string),即剥离国际音标(IPA)后的文本
- 字段名:text_romanized,数据类型:字符串(string),即罗马字转写文本
数据集划分:
- 划分名称:dev(开发集),占用字节数:1098368,样本数量:997
- 划分名称:devtest(开发测试集),占用字节数:1149414,样本数量:1012
下载总大小:1026227 字节,数据集总存储大小:2247782 字节
配置项:
- 配置名称:default(默认配置),数据文件配置:
- 划分dev:对应数据文件路径为data/dev-*
- 划分devtest:对应数据文件路径为data/devtest-*
提供机构:
iggy12345



