five

finepdfs_fw_edu_labeled

收藏
魔搭社区2025-11-13 更新2025-11-15 收录
下载链接:
https://modelscope.cn/datasets/HuggingFaceFW/finepdfs_fw_edu_labeled
下载链接
链接失效反馈
官方服务:
资源简介:
configs: - config_name: deu_Latn data_files: - split: train path: data/deu_Latn/train/* - config_name: jpn_Jpan data_files: - split: train path: data/jpn_Jpan/train/* - config_name: fra_Latn data_files: - split: train path: data/fra_Latn/train/* - config_name: spa_Latn data_files: - split: train path: data/spa_Latn/train/* - config_name: ita_Latn data_files: - split: train path: data/ita_Latn/train/* - config_name: rus_Cyrl data_files: - split: train path: data/rus_Cyrl/train/* - config_name: unknown data_files: - split: train path: data/unknown/train/* - config_name: por_Latn data_files: - split: train path: data/por_Latn/train/* - config_name: pol_Latn data_files: - split: train path: data/pol_Latn/train/* - config_name: nld_Latn data_files: - split: train path: data/nld_Latn/train/* - config_name: ces_Latn data_files: - split: train path: data/ces_Latn/train/* - config_name: cmn_Hani data_files: - split: train path: data/cmn_Hani/train/* - config_name: ron_Latn data_files: - split: train path: data/ron_Latn/train/* - config_name: swe_Latn data_files: - split: train path: data/swe_Latn/train/* - config_name: hun_Latn data_files: - split: train path: data/hun_Latn/train/* - config_name: slk_Latn data_files: - split: train path: data/slk_Latn/train/* - config_name: ukr_Cyrl data_files: - split: train path: data/ukr_Cyrl/train/* - config_name: tha_Thai data_files: - split: train path: data/tha_Thai/train/* - config_name: dan_Latn data_files: - split: train path: data/dan_Latn/train/* - config_name: ind_Latn data_files: - split: train path: data/ind_Latn/train/* - config_name: ell_Grek data_files: - split: train path: data/ell_Grek/train/* - config_name: fin_Latn data_files: - split: train path: data/fin_Latn/train/* - config_name: cat_Latn data_files: - split: train path: data/cat_Latn/train/* - config_name: tur_Latn data_files: - split: train path: data/tur_Latn/train/* - config_name: dag_Latn data_files: - split: train path: data/dag_Latn/train/* - config_name: hrv_Latn data_files: - split: train path: data/hrv_Latn/train/* - config_name: fas_Arab data_files: - split: train path: data/fas_Arab/train/* - config_name: bul_Cyrl data_files: - split: train path: data/bul_Cyrl/train/* - config_name: nob_Latn data_files: - split: train path: data/nob_Latn/train/* - config_name: kiu_Latn data_files: - split: train path: data/kiu_Latn/train/* - config_name: arb_Arab data_files: - split: train path: data/arb_Arab/train/* - config_name: vie_Latn data_files: - split: train path: data/vie_Latn/train/* - config_name: srp_Cyrl data_files: - split: train path: data/srp_Cyrl/train/* - config_name: kor_Hang data_files: - split: train path: data/kor_Hang/train/* - config_name: slv_Latn data_files: - split: train path: data/slv_Latn/train/* - config_name: lit_Latn data_files: - split: train path: data/lit_Latn/train/* - config_name: hin_Deva data_files: - split: train path: data/hin_Deva/train/* - config_name: heb_Hebr data_files: - split: train path: data/heb_Hebr/train/* - config_name: bos_Latn data_files: - split: train path: data/bos_Latn/train/* - config_name: zsm_Latn data_files: - split: train path: data/zsm_Latn/train/* - config_name: ekk_Latn data_files: - split: train path: data/ekk_Latn/train/* - config_name: lvs_Latn data_files: - split: train path: data/lvs_Latn/train/* - config_name: ben_Beng data_files: - split: train path: data/ben_Beng/train/* - config_name: frp_Latn data_files: - split: train path: data/frp_Latn/train/* - config_name: isl_Latn data_files: - split: train path: data/isl_Latn/train/* - config_name: glk_Arab data_files: - split: train path: data/glk_Arab/train/* - config_name: eus_Latn data_files: - split: train path: data/eus_Latn/train/* - config_name: glg_Latn data_files: - split: train path: data/glg_Latn/train/* - config_name: als_Latn data_files: - split: train path: data/als_Latn/train/* - config_name: mkd_Cyrl data_files: - split: train path: data/mkd_Cyrl/train/* - config_name: mar_Deva data_files: - split: train path: data/mar_Deva/train/* - config_name: und_Hira data_files: - split: train path: data/und_Hira/train/* - config_name: npi_Deva data_files: - split: train path: data/npi_Deva/train/* - config_name: kat_Geor data_files: - split: train path: data/kat_Geor/train/* - config_name: lat_Latn data_files: - split: train path: data/lat_Latn/train/* - config_name: pcm_Latn data_files: - split: train path: data/pcm_Latn/train/* - config_name: mlt_Latn data_files: - split: train path: data/mlt_Latn/train/* - config_name: cym_Latn data_files: - split: train path: data/cym_Latn/train/* - config_name: vec_Latn data_files: - split: train path: data/vec_Latn/train/* - config_name: hye_Armn data_files: - split: train path: data/hye_Armn/train/* - config_name: nrm_Latn data_files: - split: train path: data/nrm_Latn/train/* - config_name: wuu_Hani data_files: - split: train path: data/wuu_Hani/train/* - config_name: anp_Deva data_files: - split: train path: data/anp_Deva/train/* - config_name: bcc_Arab data_files: - split: train path: data/bcc_Arab/train/* - config_name: urd_Arab data_files: - split: train path: data/urd_Arab/train/* - config_name: afr_Latn data_files: - split: train path: data/afr_Latn/train/* - config_name: azj_Latn data_files: - split: train path: data/azj_Latn/train/* - config_name: tam_Taml data_files: - split: train path: data/tam_Taml/train/* - config_name: kaz_Cyrl data_files: - split: train path: data/kaz_Cyrl/train/* - config_name: nno_Latn data_files: - split: train path: data/nno_Latn/train/* - config_name: guj_Gujr data_files: - split: train path: data/guj_Gujr/train/* ---

配置列表: - 配置名称:德语(拉丁文脚本,deu_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/deu_Latn/train/* - 配置名称:日语(日文脚本,jpn_Jpan) 数据文件: - 数据拆分:训练集(train) 数据路径:data/jpn_Jpan/train/* - 配置名称:法语(拉丁文脚本,fra_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/fra_Latn/train/* - 配置名称:西班牙语(拉丁文脚本,spa_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/spa_Latn/train/* - 配置名称:意大利语(拉丁文脚本,ita_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/ita_Latn/train/* - 配置名称:俄语(西里尔字母脚本,rus_Cyrl) 数据文件: - 数据拆分:训练集(train) 数据路径:data/rus_Cyrl/train/* - 配置名称:未知语言(unknown) 数据文件: - 数据拆分:训练集(train) 数据路径:data/unknown/train/* - 配置名称:葡萄牙语(拉丁文脚本,por_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/por_Latn/train/* - 配置名称:波兰语(拉丁文脚本,pol_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/pol_Latn/train/* - 配置名称:荷兰语(拉丁文脚本,nld_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/nld_Latn/train/* - 配置名称:捷克语(拉丁文脚本,ces_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/ces_Latn/train/* - 配置名称:普通话(汉字脚本,cmn_Hani) 数据文件: - 数据拆分:训练集(train) 数据路径:data/cmn_Hani/train/* - 配置名称:罗马尼亚语(拉丁文脚本,ron_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/ron_Latn/train/* - 配置名称:瑞典语(拉丁文脚本,swe_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/swe_Latn/train/* - 配置名称:匈牙利语(拉丁文脚本,hun_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/hun_Latn/train/* - 配置名称:斯洛伐克语(拉丁文脚本,slk_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/slk_Latn/train/* - 配置名称:乌克兰语(西里尔字母脚本,ukr_Cyrl) 数据文件: - 数据拆分:训练集(train) 数据路径:data/ukr_Cyrl/train/* - 配置名称:泰语(泰文脚本,tha_Thai) 数据文件: - 数据拆分:训练集(train) 数据路径:data/tha_Thai/train/* - 配置名称:丹麦语(拉丁文脚本,dan_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/dan_Latn/train/* - 配置名称:印度尼西亚语(拉丁文脚本,ind_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/ind_Latn/train/* - 配置名称:希腊语(希腊文脚本,ell_Grek) 数据文件: - 数据拆分:训练集(train) 数据路径:data/ell_Grek/train/* - 配置名称:芬兰语(拉丁文脚本,fin_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/fin_Latn/train/* - 配置名称:加泰罗尼亚语(拉丁文脚本,cat_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/cat_Latn/train/* - 配置名称:土耳其语(拉丁文脚本,tur_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/tur_Latn/train/* - 配置名称:达格班尼语(拉丁文脚本,dag_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/dag_Latn/train/* - 配置名称:克罗地亚语(拉丁文脚本,hrv_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/hrv_Latn/train/* - 配置名称:波斯语(阿拉伯字母脚本,fas_Arab) 数据文件: - 数据拆分:训练集(train) 数据路径:data/fas_Arab/train/* - 配置名称:保加利亚语(西里尔字母脚本,bul_Cyrl) 数据文件: - 数据拆分:训练集(train) 数据路径:data/bul_Cyrl/train/* - 配置名称:挪威博克马尔语(拉丁文脚本,nob_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/nob_Latn/train/* - 配置名称:伊朗库尔德语(拉丁文脚本,kiu_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/kiu_Latn/train/* - 配置名称:现代标准阿拉伯语(阿拉伯字母脚本,arb_Arab) 数据文件: - 数据拆分:训练集(train) 数据路径:data/arb_Arab/train/* - 配置名称:越南语(拉丁文脚本,vie_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/vie_Latn/train/* - 配置名称:塞尔维亚语(西里尔字母脚本,srp_Cyrl) 数据文件: - 数据拆分:训练集(train) 数据路径:data/srp_Cyrl/train/* - 配置名称:韩语(谚文脚本,kor_Hang) 数据文件: - 数据拆分:训练集(train) 数据路径:data/kor_Hang/train/* - 配置名称:斯洛文尼亚语(拉丁文脚本,slv_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/slv_Latn/train/* - 配置名称:立陶宛语(拉丁文脚本,lit_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/lit_Latn/train/* - 配置名称:印地语(天城文脚本,hin_Deva) 数据文件: - 数据拆分:训练集(train) 数据路径:data/hin_Deva/train/* - 配置名称:希伯来语(希伯来文脚本,heb_Hebr) 数据文件: - 数据拆分:训练集(train) 数据路径:data/heb_Hebr/train/* - 配置名称:波斯尼亚语(拉丁文脚本,bos_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/bos_Latn/train/* - 配置名称:马来西亚语(拉丁文脚本,zsm_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/zsm_Latn/train/* - 配置名称:爱沙尼亚语(拉丁文脚本,ekk_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/ekk_Latn/train/* - 配置名称:拉脱维亚语(拉丁文脚本,lvs_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/lvs_Latn/train/* - 配置名称:孟加拉语(孟加拉文脚本,ben_Beng) 数据文件: - 数据拆分:训练集(train) 数据路径:data/ben_Beng/train/* - 配置名称:法兰克-普罗旺斯语(拉丁文脚本,frp_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/frp_Latn/train/* - 配置名称:冰岛语(拉丁文脚本,isl_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/isl_Latn/train/* - 配置名称:吉拉基语(阿拉伯字母脚本,glk_Arab) 数据文件: - 数据拆分:训练集(train) 数据路径:data/glk_Arab/train/* - 配置名称:巴斯克语(拉丁文脚本,eus_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/eus_Latn/train/* - 配置名称:加利西亚语(拉丁文脚本,glg_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/glg_Latn/train/* - 配置名称:阿尔巴尼亚语(拉丁文脚本,als_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/als_Latn/train/* - 配置名称:马其顿语(西里尔字母脚本,mkd_Cyrl) 数据文件: - 数据拆分:训练集(train) 数据路径:data/mkd_Cyrl/train/* - 配置名称:马拉地语(天城文脚本,mar_Deva) 数据文件: - 数据拆分:训练集(train) 数据路径:data/mar_Deva/train/* - 配置名称:未指定语言(平假名脚本,und_Hira) 数据文件: - 数据拆分:训练集(train) 数据路径:data/und_Hira/train/* - 配置名称:尼泊尔语(天城文脚本,npi_Deva) 数据文件: - 数据拆分:训练集(train) 数据路径:data/npi_Deva/train/* - 配置名称:格鲁吉亚语(格鲁吉亚文脚本,kat_Geor) 数据文件: - 数据拆分:训练集(train) 数据路径:data/kat_Geor/train/* - 配置名称:拉丁语(拉丁文脚本,lat_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/lat_Latn/train/* - 配置名称:尼日利亚皮钦英语(拉丁文脚本,pcm_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/pcm_Latn/train/* - 配置名称:马耳他语(拉丁文脚本,mlt_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/mlt_Latn/train/* - 配置名称:威尔士语(拉丁文脚本,cym_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/cym_Latn/train/* - 配置名称:威尼斯语(拉丁文脚本,vec_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/vec_Latn/train/* - 配置名称:亚美尼亚语(亚美尼亚文脚本,hye_Armn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/hye_Armn/train/* - 配置名称:诺曼语(拉丁文脚本,nrm_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/nrm_Latn/train/* - 配置名称:吴语(汉字脚本,wuu_Hani) 数据文件: - 数据拆分:训练集(train) 数据路径:data/wuu_Hani/train/* - 配置名称:安吉卡语(天城文脚本,anp_Deva) 数据文件: - 数据拆分:训练集(train) 数据路径:data/anp_Deva/train/* - 配置名称:南俾路支语(阿拉伯字母脚本,bcc_Arab) 数据文件: - 数据拆分:训练集(train) 数据路径:data/bcc_Arab/train/* - 配置名称:乌尔都语(阿拉伯字母脚本,urd_Arab) 数据文件: - 数据拆分:训练集(train) 数据路径:data/urd_Arab/train/* - 配置名称:南非荷兰语(拉丁文脚本,afr_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/afr_Latn/train/* - 配置名称:北阿塞拜疆语(拉丁文脚本,azj_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/azj_Latn/train/* - 配置名称:泰米尔语(泰米尔文脚本,tam_Taml) 数据文件: - 数据拆分:训练集(train) 数据路径:data/tam_Taml/train/* - 配置名称:哈萨克语(西里尔字母脚本,kaz_Cyrl) 数据文件: - 数据拆分:训练集(train) 数据路径:data/kaz_Cyrl/train/* - 配置名称:挪威尼诺斯克语(拉丁文脚本,nno_Latn) 数据文件: - 数据拆分:训练集(train) 数据路径:data/nno_Latn/train/* - 配置名称:古吉拉特语(古吉拉特文脚本,guj_Gujr) 数据文件: - 数据拆分:训练集(train) 数据路径:data/guj_Gujr/train/* ---
提供机构:
maas
创建时间:
2025-10-09
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作