lecslab/glosslm-corpus

Name: lecslab/glosslm-corpus
Creator: lecslab
Published: 2024-11-04 22:20:31
License: 暂无描述

Hugging Face2024-11-04 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/lecslab/glosslm-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: transcription dtype: string - name: glosses dtype: string - name: translation dtype: string - name: glottocode dtype: string - name: id dtype: string - name: source dtype: string - name: metalang_glottocode dtype: string - name: is_segmented dtype: string - name: language dtype: string - name: metalang dtype: string splits: - name: train num_bytes: 101534040 num_examples: 451108 download_size: 31412614 dataset_size: 101534040 configs: - config_name: default data_files: - split: train path: data/train-* license: apache-2.0 task_categories: - text2text-generation pretty_name: GlossLM Corpus ---

数据集信息：特征字段： - 名称：转写文本（transcription），数据类型：字符串 - 名称：语素释义（glosses），数据类型：字符串 - 名称：译文（translation），数据类型：字符串 - 名称：格洛托语码（glottocode），数据类型：字符串 - 名称：数据ID（id），数据类型：字符串 - 名称：数据来源（source），数据类型：字符串 - 名称：元语言格洛托语码（metalang_glottocode），数据类型：字符串 - 名称：是否已切分（is_segmented），数据类型：字符串 - 名称：对应语言（language），数据类型：字符串 - 名称：元语言（metalang），数据类型：字符串数据集划分： - 划分名称：训练集（train），字节大小：101534040，样本数量：451108 下载大小：31412614 数据集总大小：101534040 配置项： - 配置名称：默认配置（default），数据文件： - 对应划分：训练集（train），文件路径：data/train-* 开源许可证：Apache-2.0 任务类别： - 文本到文本生成（text2text-generation）展示名称：GlossLM语料库（GlossLM Corpus）

提供机构：

lecslab

原始信息汇总

数据集概述

数据集特征

transcription: 数据类型为字符串
glosses: 数据类型为字符串
translation: 数据类型为字符串
glottocode: 数据类型为字符串
id: 数据类型为字符串
source: 数据类型为字符串
metalang_glottocode: 数据类型为字符串
is_segmented: 数据类型为字符串
language: 数据类型为字符串
metalang: 数据类型为字符串

数据集划分

train: 包含451108个样本，占用101534040字节

数据集大小

下载大小: 31412614字节
数据集大小: 101534040字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集