five

oscar-corpus/mOSCAR

收藏
Hugging Face2024-11-23 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/oscar-corpus/mOSCAR
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个大规模的多语言和多模态文档级语料库,包含多种语言的训练数据。每个语言对应一个配置文件,并指定了训练数据文件的路径。数据集的新特性包括过滤有毒内容、完成西班牙语数据分割、图像中的人脸检测和模糊处理、改进文档语言识别以及替换个人身份信息。数据集的布局包括图像、元数据和文本信息。

This dataset is a large-scale multilingual and multimodal document-level corpus containing training data in multiple languages. Each language corresponds to a configuration file, and the path to the training data file is specified. New features of the dataset include filtering toxic content, completing the Spanish data split, face detection and blurring in images, improving document language identification, and replacing personally identifiable information. The dataset layout includes images, metadata, and text information.
提供机构:
oscar-corpus
原始信息汇总

数据集概述

许可证

  • 该数据集遵循 CC-BY-4.0 许可证。

配置详情

  • 数据集包含多种语言和脚本配置,每个配置包含一个训练数据文件。以下是部分配置示例:
    • ace_Latn:训练数据文件路径为 data/ace_Latn/00000.parquet
    • acm_Arab:训练数据文件路径为 data/acm_Arab/00000.parquet
    • aeb_Arab:训练数据文件路径为 data/aeb_Arab/00000.parquet
    • afr_Latn:训练数据文件路径为 data/afr_Latn/00000.parquet
    • ajp_Arab:训练数据文件路径为 data/ajp_Arab/00000.parquet
    • als_Latn:训练数据文件路径为 data/als_Latn/00000.parquet
    • amh_Ethi:训练数据文件路径为 data/amh_Ethi/00000.parquet
    • apc_Arab:训练数据文件路径为 data/apc_Arab/00000.parquet
    • arb_Arab:训练数据文件路径为 data/arb_Arab/00000.parquet
    • ars_Arab:训练数据文件路径为 data/ars_Arab/00000.parquet
    • ary_Arab:训练数据文件路径为 data/ary_Arab/00000.parquet
    • arz_Arab:训练数据文件路径为 data/arz_Arab/00000.parquet
    • asm_Beng:训练数据文件路径为 data/asm_Beng/00000.parquet
    • ast_Latn:训练数据文件路径为 data/ast_Latn/00000.parquet
    • awa_Deva:训练数据文件路径为 data/awa_Deva/00000.parquet
    • ayr_Latn:训练数据文件路径为 data/ayr_Latn/00000.parquet
    • azb_Arab:训练数据文件路径为 data/azb_Arab/00000.parquet
    • azj_Latn:训练数据文件路径为 data/azj_Latn/00000.parquet
    • bak_Cyrl:训练数据文件路径为 data/bak_Cyrl/00000.parquet
    • bam_Latn:训练数据文件路径为 data/bam_Latn/00000.parquet
    • ban_Latn:训练数据文件路径为 data/ban_Latn/00000.parquet
    • bel_Cyrl:训练数据文件路径为 data/bel_Cyrl/00000.parquet
    • bem_Latn:训练数据文件路径为 data/bem_Latn/00000.parquet
    • ben_Beng:训练数据文件路径为 data/ben_Beng/00000.parquet
    • bho_Deva:训练数据文件路径为 data/bho_Deva/00000.parquet
    • bjn_Latn:训练数据文件路径为 data/bjn_Latn/00000.parquet
    • bos_Latn:训练数据文件路径为 data/bos_Latn/00000.parquet
    • bug_Latn:训练数据文件路径为 data/bug_Latn/00000.parquet
    • bul_Cyrl:训练数据文件路径为 data/bul_Cyrl/00000.parquet
    • cat_Latn:训练数据文件路径为 data/cat_Latn/00000.parquet
    • ceb_Latn:训练数据文件路径为 data/ceb_Latn/00000.parquet
    • ces_Latn:训练数据文件路径为 data/ces_Latn/00000.parquet
    • ckb_Arab:训练数据文件路径为 data/ckb_Arab/00000.parquet
    • crh_Latn:训练数据文件路径为 data/crh_Latn/00000.parquet
    • cym_Latn:训练数据文件路径为 data/cym_Latn/00000.parquet
    • dan_Latn:训练数据文件路径为 data/dan_Latn/00000.parquet
    • deu_Latn:训练数据文件路径为 data/deu_Latn/00000.parquet
    • dik_Latn:训练数据文件路径为 data/dik_Latn/00000.parquet
    • ell_Grek:训练数据文件路径为 data/ell_Grek/00000.parquet
    • eng_Latn:训练数据文件路径为 data/eng_Latn/00000.parquet
    • epo_Latn:训练数据文件路径为 data/epo_Latn/00000.parquet
    • est_Latn:训练数据文件路径为 data/est_Latn/00000.parquet
    • eus_Latn:训练数据文件路径为 data/eus_Latn/00000.parquet
    • fao_Latn:训练数据文件路径为 data/fao_Latn/00000.parquet
    • fij_Latn:训练数据文件路径为 data/fij_Latn/00000.parquet
    • fin_Latn:训练数据文件路径为 data/fin_Latn/00000.parquet
    • fra_Latn:训练数据文件路径为 data/fra_Latn/00000.parquet
    • fur_Latn:训练数据文件路径为 data/fur_Latn/00000.parquet
    • fuv_Latn:训练数据文件路径为 data/fuv_Latn/00000.parquet
    • gaz_Latn:训练数据文件路径为 data/gaz_Latn/00000.parquet
    • gla_Latn:训练数据文件路径为 data/gla_Latn/00000.parquet
    • gle_Latn:训练数据文件路径为 data/gle_Latn/00000.parquet
    • glg_Latn:训练数据文件路径为 data/glg_Latn/00000.parquet
    • grn_Latn:训练数据文件路径为 data/grn_Latn/00000.parquet
    • guj_Gujr:训练数据文件路径为 data/guj_Gujr/00000.parquet
    • hat_Latn:训练数据文件路径为 data/hat_Latn/00000.parquet
    • hau_Latn:训练数据文件路径为 data/hau_Latn/00000.parquet
    • heb_Hebr:训练数据文件路径为 data/heb_Hebr/00000.parquet
    • hin_Deva:训练数据文件路径为 data/hin_Deva/00000.parquet
    • hne_Deva:训练数据文件路径为 data/hne_Deva/00000.parquet
    • hrv_Latn:训练数据文件路径为 data/hrv_Latn/00000.parquet
    • hun_Latn:训练数据文件路径为 data/hun_Latn/00000.parquet
    • hye_Armn:训练数据文件路径为 data/hye_Armn/00000.parquet
    • ibo_Latn:训练数据文件路径为 data/ibo_Latn/00000.parquet
    • ilo_Latn:训练数据文件路径为 data/ilo_Latn/00000.parquet
    • ind_Latn:训练数据文件路径为 data/ind_Latn/00000.parquet
    • isl_Latn:训练数据文件路径为 data/isl_Latn/00000.parquet
    • ita_Latn:训练数据文件路径为 data/ita_Latn/00000.parquet
    • jav_Latn:训练数据文件路径为 data/jav_Latn/00000.parquet
    • jpn_Jpan:训练数据文件路径为 data/jpn_Jpan/00000.parquet
    • kab_Latn:训练数据文件路径为 data/kab_Latn/00000.parquet
    • kan_Knda:训练数据文件路径为 data/kan_Knda/00000.parquet
    • kas_Arab:训练数据文件路径为 data/kas_Arab/00000.parquet
    • kat_Geor:训练数据文件路径为 data/kat_Geor/00000.parquet
    • kaz_Cyrl:训练数据文件路径为 data/kaz_Cyrl/00000.parquet
    • khk_Cyrl:训练数据文件路径为 data/khk_Cyrl/00000.parquet
    • khm_Khmr:训练数据文件路径为 data/khm_Khmr/00000.parquet
    • kin_Latn:训练数据文件路径为 data/kin_Latn/00000.parquet
    • kir_Cyrl:训练数据文件路径为 data/kir_Cyrl/00000.parquet
    • kmr_Latn:训练数据文件路径为 data/kmr_Latn/00000.parquet
    • kor_Hang:训练数据文件路径为 data/kor_Hang/00000.parquet
    • lao_Laoo:训练数据文件路径为 data/lao_Laoo/00000.parquet
    • lij_Latn:训练数据文件路径为 data/lij_Latn/00000.parquet
    • lim_Latn:训练数据文件路径为 data/lim_Latn/00000.parquet
    • lin_Latn:训练数据文件路径为 data/lin_Latn/00000.parquet
    • lit_Latn:训练数据文件路径为 data/lit_Latn/00000.parquet
    • lmo_Latn:训练数据文件路径为 data/lmo_Latn/00000.parquet
    • ltg_Latn:训练数据文件路径为 data/ltg_Latn/00000.parquet
    • ltz_Latn:训练数据文件路径为 data/ltz_Latn/00000.parquet
    • lug_Latn:训练数据文件路径为 data/lug_Latn/00000.parquet
    • lus_Latn:训练数据文件路径为 data/lus_Latn/00000.parquet
    • lvs_Latn:训练数据文件路径为 data/lvs_Latn/00000.parquet
    • mag_Deva:训练数据文件路径为 data/mag_Deva/00000.parquet
    • mal_Mlym:训练数据文件路径为 data/mal_Mlym/00000.parquet
    • mar_Deva:训练数据文件路径为 data/mar_Deva/00000.parquet
    • min_Latn:训练数据文件路径为 data/min_Latn/00000.parquet
    • mkd_Cyrl:训练数据文件路径为 data/mkd_Cyrl/00000.parquet
    • mlt_Latn:训练数据文件路径为 data/mlt_Latn/00000.parquet
    • mri_Latn:训练数据文件路径为 data/mri_Latn/00000.parquet
    • mya_Mymr:训练数据文件路径为 data/mya_Mymr/00000.parquet
    • nld_Latn:训练数据文件路径为 data/nld_Latn/00000.parquet
    • nno_Latn:训练数据文件路径为 data/nno_Latn/00000.parquet
    • nob_Latn:训练数据文件路径为 data/nob_Latn/00000.parquet
    • npi_Deva:训练数据文件路径为 data/npi_Deva/00000.parquet
    • nya_Latn:训练数据文件路径为 data/nya_Latn/00000.parquet
    • oci_Latn:训练数据文件路径为 data/oci_Latn/00000.parquet
    • ory_Orya:训练数据文件路径为 data/ory_Orya/00000.parquet
    • pag_Latn:训练数据文件路径为 data/pag_Latn/00000.parquet
    • pan_Guru:训练数据文件路径为 data/pan_Guru/00000.parquet
    • pap_Latn:训练数据文件路径为 data/pap_Latn/00000.parquet
    • pbt_Arab:训练数据文件路径为 data/pbt_Arab/00000.parquet
    • pes_Arab:训练数据文件路径为 data/pes_Arab/00000.parquet
    • plt_Latn:训练数据文件路径为 data/plt_Latn/00000.parquet
    • pol_Latn:训练数据文件路径为 data/pol_Latn/00000.parquet
    • por_Latn:训练数据文件路径为 data/por_Latn/00000.parquet
    • prs_Arab:训练数据文件路径为 data/prs_Arab/00000.parquet
    • quy_Latn:训练数据文件路径为 data/quy_Latn/00000.parquet
    • ron_Latn:训练数据文件路径为 data/ron_Latn/00000.parquet
    • run_Latn:训练数据文件路径为 data/run_Latn/00000.parquet
    • rus_Cyrl:训练数据文件路径为 data/rus_Cyrl/00000.parquet
    • sag_Latn:训练数据文件路径为 data/sag_Latn/00000.parquet
    • scn_Latn:训练数据文件路径为 data/scn_Latn/00000.parquet
    • sin_Sinh:训练数据文件路径为 data/sin_Sinh/00000.parquet
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作