oscar-corpus/mOSCAR
收藏Hugging Face2024-11-23 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/oscar-corpus/mOSCAR
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个大规模的多语言和多模态文档级语料库,包含多种语言的训练数据。每个语言对应一个配置文件,并指定了训练数据文件的路径。数据集的新特性包括过滤有毒内容、完成西班牙语数据分割、图像中的人脸检测和模糊处理、改进文档语言识别以及替换个人身份信息。数据集的布局包括图像、元数据和文本信息。
This dataset is a large-scale multilingual and multimodal document-level corpus containing training data in multiple languages. Each language corresponds to a configuration file, and the path to the training data file is specified. New features of the dataset include filtering toxic content, completing the Spanish data split, face detection and blurring in images, improving document language identification, and replacing personally identifiable information. The dataset layout includes images, metadata, and text information.
提供机构:
oscar-corpus
原始信息汇总
数据集概述
许可证
- 该数据集遵循 CC-BY-4.0 许可证。
配置详情
- 数据集包含多种语言和脚本配置,每个配置包含一个训练数据文件。以下是部分配置示例:
ace_Latn:训练数据文件路径为data/ace_Latn/00000.parquetacm_Arab:训练数据文件路径为data/acm_Arab/00000.parquetaeb_Arab:训练数据文件路径为data/aeb_Arab/00000.parquetafr_Latn:训练数据文件路径为data/afr_Latn/00000.parquetajp_Arab:训练数据文件路径为data/ajp_Arab/00000.parquetals_Latn:训练数据文件路径为data/als_Latn/00000.parquetamh_Ethi:训练数据文件路径为data/amh_Ethi/00000.parquetapc_Arab:训练数据文件路径为data/apc_Arab/00000.parquetarb_Arab:训练数据文件路径为data/arb_Arab/00000.parquetars_Arab:训练数据文件路径为data/ars_Arab/00000.parquetary_Arab:训练数据文件路径为data/ary_Arab/00000.parquetarz_Arab:训练数据文件路径为data/arz_Arab/00000.parquetasm_Beng:训练数据文件路径为data/asm_Beng/00000.parquetast_Latn:训练数据文件路径为data/ast_Latn/00000.parquetawa_Deva:训练数据文件路径为data/awa_Deva/00000.parquetayr_Latn:训练数据文件路径为data/ayr_Latn/00000.parquetazb_Arab:训练数据文件路径为data/azb_Arab/00000.parquetazj_Latn:训练数据文件路径为data/azj_Latn/00000.parquetbak_Cyrl:训练数据文件路径为data/bak_Cyrl/00000.parquetbam_Latn:训练数据文件路径为data/bam_Latn/00000.parquetban_Latn:训练数据文件路径为data/ban_Latn/00000.parquetbel_Cyrl:训练数据文件路径为data/bel_Cyrl/00000.parquetbem_Latn:训练数据文件路径为data/bem_Latn/00000.parquetben_Beng:训练数据文件路径为data/ben_Beng/00000.parquetbho_Deva:训练数据文件路径为data/bho_Deva/00000.parquetbjn_Latn:训练数据文件路径为data/bjn_Latn/00000.parquetbos_Latn:训练数据文件路径为data/bos_Latn/00000.parquetbug_Latn:训练数据文件路径为data/bug_Latn/00000.parquetbul_Cyrl:训练数据文件路径为data/bul_Cyrl/00000.parquetcat_Latn:训练数据文件路径为data/cat_Latn/00000.parquetceb_Latn:训练数据文件路径为data/ceb_Latn/00000.parquetces_Latn:训练数据文件路径为data/ces_Latn/00000.parquetckb_Arab:训练数据文件路径为data/ckb_Arab/00000.parquetcrh_Latn:训练数据文件路径为data/crh_Latn/00000.parquetcym_Latn:训练数据文件路径为data/cym_Latn/00000.parquetdan_Latn:训练数据文件路径为data/dan_Latn/00000.parquetdeu_Latn:训练数据文件路径为data/deu_Latn/00000.parquetdik_Latn:训练数据文件路径为data/dik_Latn/00000.parquetell_Grek:训练数据文件路径为data/ell_Grek/00000.parqueteng_Latn:训练数据文件路径为data/eng_Latn/00000.parquetepo_Latn:训练数据文件路径为data/epo_Latn/00000.parquetest_Latn:训练数据文件路径为data/est_Latn/00000.parqueteus_Latn:训练数据文件路径为data/eus_Latn/00000.parquetfao_Latn:训练数据文件路径为data/fao_Latn/00000.parquetfij_Latn:训练数据文件路径为data/fij_Latn/00000.parquetfin_Latn:训练数据文件路径为data/fin_Latn/00000.parquetfra_Latn:训练数据文件路径为data/fra_Latn/00000.parquetfur_Latn:训练数据文件路径为data/fur_Latn/00000.parquetfuv_Latn:训练数据文件路径为data/fuv_Latn/00000.parquetgaz_Latn:训练数据文件路径为data/gaz_Latn/00000.parquetgla_Latn:训练数据文件路径为data/gla_Latn/00000.parquetgle_Latn:训练数据文件路径为data/gle_Latn/00000.parquetglg_Latn:训练数据文件路径为data/glg_Latn/00000.parquetgrn_Latn:训练数据文件路径为data/grn_Latn/00000.parquetguj_Gujr:训练数据文件路径为data/guj_Gujr/00000.parquethat_Latn:训练数据文件路径为data/hat_Latn/00000.parquethau_Latn:训练数据文件路径为data/hau_Latn/00000.parquetheb_Hebr:训练数据文件路径为data/heb_Hebr/00000.parquethin_Deva:训练数据文件路径为data/hin_Deva/00000.parquethne_Deva:训练数据文件路径为data/hne_Deva/00000.parquethrv_Latn:训练数据文件路径为data/hrv_Latn/00000.parquethun_Latn:训练数据文件路径为data/hun_Latn/00000.parquethye_Armn:训练数据文件路径为data/hye_Armn/00000.parquetibo_Latn:训练数据文件路径为data/ibo_Latn/00000.parquetilo_Latn:训练数据文件路径为data/ilo_Latn/00000.parquetind_Latn:训练数据文件路径为data/ind_Latn/00000.parquetisl_Latn:训练数据文件路径为data/isl_Latn/00000.parquetita_Latn:训练数据文件路径为data/ita_Latn/00000.parquetjav_Latn:训练数据文件路径为data/jav_Latn/00000.parquetjpn_Jpan:训练数据文件路径为data/jpn_Jpan/00000.parquetkab_Latn:训练数据文件路径为data/kab_Latn/00000.parquetkan_Knda:训练数据文件路径为data/kan_Knda/00000.parquetkas_Arab:训练数据文件路径为data/kas_Arab/00000.parquetkat_Geor:训练数据文件路径为data/kat_Geor/00000.parquetkaz_Cyrl:训练数据文件路径为data/kaz_Cyrl/00000.parquetkhk_Cyrl:训练数据文件路径为data/khk_Cyrl/00000.parquetkhm_Khmr:训练数据文件路径为data/khm_Khmr/00000.parquetkin_Latn:训练数据文件路径为data/kin_Latn/00000.parquetkir_Cyrl:训练数据文件路径为data/kir_Cyrl/00000.parquetkmr_Latn:训练数据文件路径为data/kmr_Latn/00000.parquetkor_Hang:训练数据文件路径为data/kor_Hang/00000.parquetlao_Laoo:训练数据文件路径为data/lao_Laoo/00000.parquetlij_Latn:训练数据文件路径为data/lij_Latn/00000.parquetlim_Latn:训练数据文件路径为data/lim_Latn/00000.parquetlin_Latn:训练数据文件路径为data/lin_Latn/00000.parquetlit_Latn:训练数据文件路径为data/lit_Latn/00000.parquetlmo_Latn:训练数据文件路径为data/lmo_Latn/00000.parquetltg_Latn:训练数据文件路径为data/ltg_Latn/00000.parquetltz_Latn:训练数据文件路径为data/ltz_Latn/00000.parquetlug_Latn:训练数据文件路径为data/lug_Latn/00000.parquetlus_Latn:训练数据文件路径为data/lus_Latn/00000.parquetlvs_Latn:训练数据文件路径为data/lvs_Latn/00000.parquetmag_Deva:训练数据文件路径为data/mag_Deva/00000.parquetmal_Mlym:训练数据文件路径为data/mal_Mlym/00000.parquetmar_Deva:训练数据文件路径为data/mar_Deva/00000.parquetmin_Latn:训练数据文件路径为data/min_Latn/00000.parquetmkd_Cyrl:训练数据文件路径为data/mkd_Cyrl/00000.parquetmlt_Latn:训练数据文件路径为data/mlt_Latn/00000.parquetmri_Latn:训练数据文件路径为data/mri_Latn/00000.parquetmya_Mymr:训练数据文件路径为data/mya_Mymr/00000.parquetnld_Latn:训练数据文件路径为data/nld_Latn/00000.parquetnno_Latn:训练数据文件路径为data/nno_Latn/00000.parquetnob_Latn:训练数据文件路径为data/nob_Latn/00000.parquetnpi_Deva:训练数据文件路径为data/npi_Deva/00000.parquetnya_Latn:训练数据文件路径为data/nya_Latn/00000.parquetoci_Latn:训练数据文件路径为data/oci_Latn/00000.parquetory_Orya:训练数据文件路径为data/ory_Orya/00000.parquetpag_Latn:训练数据文件路径为data/pag_Latn/00000.parquetpan_Guru:训练数据文件路径为data/pan_Guru/00000.parquetpap_Latn:训练数据文件路径为data/pap_Latn/00000.parquetpbt_Arab:训练数据文件路径为data/pbt_Arab/00000.parquetpes_Arab:训练数据文件路径为data/pes_Arab/00000.parquetplt_Latn:训练数据文件路径为data/plt_Latn/00000.parquetpol_Latn:训练数据文件路径为data/pol_Latn/00000.parquetpor_Latn:训练数据文件路径为data/por_Latn/00000.parquetprs_Arab:训练数据文件路径为data/prs_Arab/00000.parquetquy_Latn:训练数据文件路径为data/quy_Latn/00000.parquetron_Latn:训练数据文件路径为data/ron_Latn/00000.parquetrun_Latn:训练数据文件路径为data/run_Latn/00000.parquetrus_Cyrl:训练数据文件路径为data/rus_Cyrl/00000.parquetsag_Latn:训练数据文件路径为data/sag_Latn/00000.parquetscn_Latn:训练数据文件路径为data/scn_Latn/00000.parquetsin_Sinh:训练数据文件路径为data/sin_Sinh/00000.parquet



