five

amanuelbyte/finetranslations-sentence-level

收藏
Hugging Face2026-01-16 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/amanuelbyte/finetranslations-sentence-level
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: afr_Latn features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 6430030673 num_examples: 18229868 download_size: 3268174924 dataset_size: 6430030673 - config_name: amh_Ethi features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 1431374427 num_examples: 2582100 download_size: 639139512 dataset_size: 1431374427 - config_name: arz_Arab features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 3744644089 num_examples: 7421493 download_size: 1509218422 dataset_size: 3744644089 - config_name: hau_Latn features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 1709365301 num_examples: 4029038 download_size: 811987756 dataset_size: 1709365301 - config_name: lin_Latn features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 63156266 num_examples: 188212 download_size: 29643919 dataset_size: 63156266 - config_name: som_Latn features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 2816379639 num_examples: 6256262 download_size: 1359183224 dataset_size: 2816379639 - config_name: swh_Latn features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 3675126038 num_examples: 9329468 download_size: 1801537057 dataset_size: 3675126038 - config_name: wol_Latn features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 18141502 num_examples: 68416 download_size: 8292148 dataset_size: 18141502 - config_name: yor_Latn features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 371057798 num_examples: 814488 download_size: 184693148 dataset_size: 371057798 - config_name: zul_Latn features: - name: source_lang dtype: string - name: source_sentence dtype: string - name: target_sentence dtype: string - name: url dtype: string splits: - name: train num_bytes: 360627411 num_examples: 810886 download_size: 190904256 dataset_size: 360627411 configs: - config_name: afr_Latn data_files: - split: train path: afr_Latn/train-* - config_name: amh_Ethi data_files: - split: train path: amh_Ethi/train-* - config_name: arz_Arab data_files: - split: train path: arz_Arab/train-* - config_name: hau_Latn data_files: - split: train path: hau_Latn/train-* - config_name: lin_Latn data_files: - split: train path: lin_Latn/train-* - config_name: som_Latn data_files: - split: train path: som_Latn/train-* - config_name: swh_Latn data_files: - split: train path: swh_Latn/train-* - config_name: wol_Latn data_files: - split: train path: wol_Latn/train-* - config_name: yor_Latn data_files: - split: train path: yor_Latn/train-* - config_name: zul_Latn data_files: - split: train path: zul_Latn/train-* ---

数据集信息: - 配置名称:afr_Latn(南非荷兰语,拉丁字母脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:6430030673,样本数量:18229868 下载大小:3268174924,数据集存储大小:6430030673 - 配置名称:amh_Ethi(阿姆哈拉语,埃塞俄比亚音节文字脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:1431374427,样本数量:2582100 下载大小:639139512,数据集存储大小:1431374427 - 配置名称:arz_Arab(埃及阿拉伯语,阿拉伯字母脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:3744644089,样本数量:7421493 下载大小:1509218422,数据集存储大小:3744644089 - 配置名称:hau_Latn(豪萨语,拉丁字母脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:1709365301,样本数量:4029038 下载大小:811987756,数据集存储大小:1709365301 - 配置名称:lin_Latn(林加拉语,拉丁字母脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:63156266,样本数量:188212 下载大小:29643919,数据集存储大小:63156266 - 配置名称:som_Latn(索马里语,拉丁字母脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:2816379639,样本数量:6256262 下载大小:1359183224,数据集存储大小:2816379639 - 配置名称:swh_Latn(斯瓦西里语,拉丁字母脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:3675126038,样本数量:9329468 下载大小:1801537057,数据集存储大小:3675126038 - 配置名称:wol_Latn(沃洛夫语,拉丁字母脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:18141502,样本数量:68416 下载大小:8292148,数据集存储大小:18141502 - 配置名称:yor_Latn(约鲁巴语,拉丁字母脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:371057798,样本数量:814488 下载大小:184693148,数据集存储大小:371057798 - 配置名称:zul_Latn(祖鲁语,拉丁字母脚本) 特征: - 字段名:source_lang(源语言),数据类型:字符串 - 字段名:source_sentence(源语句),数据类型:字符串 - 字段名:target_sentence(目标语句),数据类型:字符串 - 字段名:url(来源链接),数据类型:字符串 数据划分: - 划分名称:train(训练集),字节占用数:360627411,样本数量:810886 下载大小:190904256,数据集存储大小:360627411 配置项: - 配置名称:afr_Latn(南非荷兰语,拉丁字母脚本),数据文件: - 数据划分:train(训练集),文件路径:afr_Latn/train-* - 配置名称:amh_Ethi(阿姆哈拉语,埃塞俄比亚音节文字脚本),数据文件: - 数据划分:train(训练集),文件路径:amh_Ethi/train-* - 配置名称:arz_Arab(埃及阿拉伯语,阿拉伯字母脚本),数据文件: - 数据划分:train(训练集),文件路径:arz_Arab/train-* - 配置名称:hau_Latn(豪萨语,拉丁字母脚本),数据文件: - 数据划分:train(训练集),文件路径:hau_Latn/train-* - 配置名称:lin_Latn(林加拉语,拉丁字母脚本),数据文件: - 数据划分:train(训练集),文件路径:lin_Latn/train-* - 配置名称:som_Latn(索马里语,拉丁字母脚本),数据文件: - 数据划分:train(训练集),文件路径:som_Latn/train-* - 配置名称:swh_Latn(斯瓦西里语,拉丁字母脚本),数据文件: - 数据划分:train(训练集),文件路径:swh_Latn/train-* - 配置名称:wol_Latn(沃洛夫语,拉丁字母脚本),数据文件: - 数据划分:train(训练集),文件路径:wol_Latn/train-* - 配置名称:yor_Latn(约鲁巴语,拉丁字母脚本),数据文件: - 数据划分:train(训练集),文件路径:yor_Latn/train-* - 配置名称:zul_Latn(祖鲁语,拉丁字母脚本),数据文件: - 数据划分:train(训练集),文件路径:zul_Latn/train-*
提供机构:
amanuelbyte
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作