amanuelbyte/finetranslations-sentence-level
收藏Hugging Face2026-01-16 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/amanuelbyte/finetranslations-sentence-level
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: afr_Latn
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 6430030673
num_examples: 18229868
download_size: 3268174924
dataset_size: 6430030673
- config_name: amh_Ethi
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 1431374427
num_examples: 2582100
download_size: 639139512
dataset_size: 1431374427
- config_name: arz_Arab
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 3744644089
num_examples: 7421493
download_size: 1509218422
dataset_size: 3744644089
- config_name: hau_Latn
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 1709365301
num_examples: 4029038
download_size: 811987756
dataset_size: 1709365301
- config_name: lin_Latn
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 63156266
num_examples: 188212
download_size: 29643919
dataset_size: 63156266
- config_name: som_Latn
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 2816379639
num_examples: 6256262
download_size: 1359183224
dataset_size: 2816379639
- config_name: swh_Latn
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 3675126038
num_examples: 9329468
download_size: 1801537057
dataset_size: 3675126038
- config_name: wol_Latn
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 18141502
num_examples: 68416
download_size: 8292148
dataset_size: 18141502
- config_name: yor_Latn
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 371057798
num_examples: 814488
download_size: 184693148
dataset_size: 371057798
- config_name: zul_Latn
features:
- name: source_lang
dtype: string
- name: source_sentence
dtype: string
- name: target_sentence
dtype: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 360627411
num_examples: 810886
download_size: 190904256
dataset_size: 360627411
configs:
- config_name: afr_Latn
data_files:
- split: train
path: afr_Latn/train-*
- config_name: amh_Ethi
data_files:
- split: train
path: amh_Ethi/train-*
- config_name: arz_Arab
data_files:
- split: train
path: arz_Arab/train-*
- config_name: hau_Latn
data_files:
- split: train
path: hau_Latn/train-*
- config_name: lin_Latn
data_files:
- split: train
path: lin_Latn/train-*
- config_name: som_Latn
data_files:
- split: train
path: som_Latn/train-*
- config_name: swh_Latn
data_files:
- split: train
path: swh_Latn/train-*
- config_name: wol_Latn
data_files:
- split: train
path: wol_Latn/train-*
- config_name: yor_Latn
data_files:
- split: train
path: yor_Latn/train-*
- config_name: zul_Latn
data_files:
- split: train
path: zul_Latn/train-*
---
数据集信息:
- 配置名称:afr_Latn(南非荷兰语,拉丁字母脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:6430030673,样本数量:18229868
下载大小:3268174924,数据集存储大小:6430030673
- 配置名称:amh_Ethi(阿姆哈拉语,埃塞俄比亚音节文字脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:1431374427,样本数量:2582100
下载大小:639139512,数据集存储大小:1431374427
- 配置名称:arz_Arab(埃及阿拉伯语,阿拉伯字母脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:3744644089,样本数量:7421493
下载大小:1509218422,数据集存储大小:3744644089
- 配置名称:hau_Latn(豪萨语,拉丁字母脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:1709365301,样本数量:4029038
下载大小:811987756,数据集存储大小:1709365301
- 配置名称:lin_Latn(林加拉语,拉丁字母脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:63156266,样本数量:188212
下载大小:29643919,数据集存储大小:63156266
- 配置名称:som_Latn(索马里语,拉丁字母脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:2816379639,样本数量:6256262
下载大小:1359183224,数据集存储大小:2816379639
- 配置名称:swh_Latn(斯瓦西里语,拉丁字母脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:3675126038,样本数量:9329468
下载大小:1801537057,数据集存储大小:3675126038
- 配置名称:wol_Latn(沃洛夫语,拉丁字母脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:18141502,样本数量:68416
下载大小:8292148,数据集存储大小:18141502
- 配置名称:yor_Latn(约鲁巴语,拉丁字母脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:371057798,样本数量:814488
下载大小:184693148,数据集存储大小:371057798
- 配置名称:zul_Latn(祖鲁语,拉丁字母脚本)
特征:
- 字段名:source_lang(源语言),数据类型:字符串
- 字段名:source_sentence(源语句),数据类型:字符串
- 字段名:target_sentence(目标语句),数据类型:字符串
- 字段名:url(来源链接),数据类型:字符串
数据划分:
- 划分名称:train(训练集),字节占用数:360627411,样本数量:810886
下载大小:190904256,数据集存储大小:360627411
配置项:
- 配置名称:afr_Latn(南非荷兰语,拉丁字母脚本),数据文件:
- 数据划分:train(训练集),文件路径:afr_Latn/train-*
- 配置名称:amh_Ethi(阿姆哈拉语,埃塞俄比亚音节文字脚本),数据文件:
- 数据划分:train(训练集),文件路径:amh_Ethi/train-*
- 配置名称:arz_Arab(埃及阿拉伯语,阿拉伯字母脚本),数据文件:
- 数据划分:train(训练集),文件路径:arz_Arab/train-*
- 配置名称:hau_Latn(豪萨语,拉丁字母脚本),数据文件:
- 数据划分:train(训练集),文件路径:hau_Latn/train-*
- 配置名称:lin_Latn(林加拉语,拉丁字母脚本),数据文件:
- 数据划分:train(训练集),文件路径:lin_Latn/train-*
- 配置名称:som_Latn(索马里语,拉丁字母脚本),数据文件:
- 数据划分:train(训练集),文件路径:som_Latn/train-*
- 配置名称:swh_Latn(斯瓦西里语,拉丁字母脚本),数据文件:
- 数据划分:train(训练集),文件路径:swh_Latn/train-*
- 配置名称:wol_Latn(沃洛夫语,拉丁字母脚本),数据文件:
- 数据划分:train(训练集),文件路径:wol_Latn/train-*
- 配置名称:yor_Latn(约鲁巴语,拉丁字母脚本),数据文件:
- 数据划分:train(训练集),文件路径:yor_Latn/train-*
- 配置名称:zul_Latn(祖鲁语,拉丁字母脚本),数据文件:
- 数据划分:train(训练集),文件路径:zul_Latn/train-*
提供机构:
amanuelbyte



