five

lecslab/glosslm-corpus-split-unimorph

收藏
Hugging Face2024-06-08 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/lecslab/glosslm-corpus-split-unimorph
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: transcription dtype: string - name: glosses dtype: string - name: translation dtype: string - name: glottocode dtype: string - name: id dtype: string - name: source dtype: string - name: metalang_glottocode dtype: string - name: is_segmented dtype: string - name: language dtype: string - name: metalang dtype: string splits: - name: train num_bytes: 93970123 num_examples: 418718 - name: train_ID num_bytes: 25162511 num_examples: 104928 - name: eval_ID num_bytes: 2738251 num_examples: 11138 - name: test_ID num_bytes: 2879162 num_examples: 11940 - name: train_OOD num_bytes: 1824820 num_examples: 7356 - name: eval_OOD num_bytes: 250664 num_examples: 984 - name: test_OOD num_bytes: 241494 num_examples: 972 download_size: 38044153 dataset_size: 127067025 configs: - config_name: default data_files: - split: train path: data/train-* - split: train_ID path: data/train_ID-* - split: eval_ID path: data/eval_ID-* - split: test_ID path: data/test_ID-* - split: train_OOD path: data/train_OOD-* - split: eval_OOD path: data/eval_OOD-* - split: test_OOD path: data/test_OOD-* ---
提供机构:
lecslab
原始信息汇总

数据集概述

数据集特征

  • transcription: 类型为字符串
  • glosses: 类型为字符串
  • translation: 类型为字符串
  • glottocode: 类型为字符串
  • id: 类型为字符串
  • source: 类型为字符串
  • metalang_glottocode: 类型为字符串
  • is_segmented: 类型为字符串
  • language: 类型为字符串
  • metalang: 类型为字符串

数据集划分

  • train:
    • 字节数: 93970123
    • 样本数: 418718
  • train_ID:
    • 字节数: 25162511
    • 样本数: 104928
  • eval_ID:
    • 字节数: 2738251
    • 样本数: 11138
  • test_ID:
    • 字节数: 2879162
    • 样本数: 11940
  • train_OOD:
    • 字节数: 1824820
    • 样本数: 7356
  • eval_OOD:
    • 字节数: 250664
    • 样本数: 984
  • test_OOD:
    • 字节数: 241494
    • 样本数: 972

数据集大小

  • 下载大小: 38044153 字节
  • 数据集总大小: 127067025 字节

配置

  • config_name: default
    • 数据文件:
      • train: data/train-*
      • train_ID: data/train_ID-*
      • eval_ID: data/eval_ID-*
      • test_ID: data/test_ID-*
      • train_OOD: data/train_OOD-*
      • eval_OOD: data/eval_OOD-*
      • test_OOD: data/test_OOD-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作