lecslab/glosslm-corpus-split

Name: lecslab/glosslm-corpus-split
Creator: lecslab
Published: 2024-03-10 23:55:22
License: 暂无描述

Hugging Face2024-03-10 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/lecslab/glosslm-corpus-split

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含近两千种语言的交错注释文本（IGT）的汇编，这些文本来自不同的来源，并以标准化的格式呈现。

# 多语言语际标注文本数据集  本数据集汇集了来自多种来源、覆盖近两千种语言的标准化格式语际标注文本（interlinear glossed text，IGT）。 ## 数据集详情 ### 数据集概述   - **许可协议:** CC BY 4.0 ### 数据集来源（可选）  - **代码仓库:** https://github.com/foltaProject/glosslm/settings - **相关论文（可选）:** 即将发表... ## 直接用途  - 训练语际标注文本生成模型 - 开展跨语言语际标注文本的语言学分析 - 将语际标注文本应用于机器翻译等下游任务 ## 数据集结构  [需补充更多信息] ## 数据集构建 ### 源数据  - IMTVault 1.1（https://imtvault.org） - ODIN（http://depts.washington.edu/uwcl/odin/） - APiCS（https://apics-online.info） - UraTyp（https://uralic.clld.org） - 瓜拉尼语语料库（https://guaranicorpus.usc.edu） - 2023年SIGMORPHON共享任务（https://github.com/sigmorphon/2023GlossingST） #### 数据收集与处理  [需补充更多信息] #### 源数据生产者  [需补充更多信息] ### 标注信息（可选）  #### 标注流程  [需补充更多信息] #### 标注者信息  [需补充更多信息] #### 个人与敏感信息  [需补充更多信息] ## 偏差、风险与局限性  [需补充更多信息] ### 建议事项  用户应知晓本数据集存在的风险、偏差与局限性，相关进一步建议待补充。 ## 引用信息（可选）  **BibTeX格式:** [需补充更多信息] **APA格式:** [需补充更多信息] ## 术语表（可选）  [需补充更多信息] ## 更多信息（可选） [需补充更多信息] ## 数据集卡片作者（可选） [需补充更多信息] ## 数据集卡片联系人 [需补充更多信息] --- 数据集信息：特征： - 名称：转录文本（transcription）数据类型：字符串 - 名称：语际标注（glosses）数据类型：字符串 - 名称：翻译文本（translation）数据类型：字符串 - 名称：格洛托语系代码（glottocode）数据类型：字符串 - 名称：唯一标识符（id）数据类型：字符串 - 名称：来源（source）数据类型：字符串 - 名称：元语言格洛托语系代码（metalang_glottocode）数据类型：字符串 - 名称：是否分词（is_segmented）数据类型：字符串 - 名称：语言名称（language）数据类型：字符串 - 名称：元语言（metalang）数据类型：字符串划分集： - 名称：通用训练集（train）字节大小：93769783 样本数量：418718 - 名称：同分布训练集（train_ID）字节大小：25048415 样本数量：104928 - 名称：同分布验证集（eval_ID）字节大小：2732125 样本数量：11138 - 名称：同分布测试集（test_ID）字节大小：2869258 样本数量：11940 - 名称：跨分布训练集（train_OOD）字节大小：1817406 样本数量：7356 - 名称：跨分布验证集（eval_OOD）字节大小：249722 样本数量：984 - 名称：跨分布测试集（test_OOD）字节大小：240556 样本数量：972 下载大小：38002540 数据集总大小：126727265 配置项： - 配置名称：默认配置（default）数据文件： - 划分集：train 路径：data/train-* - 划分集：train_ID 路径：data/train_ID-* - 划分集：eval_ID 路径：data/eval_ID-* - 划分集：test_ID 路径：data/test_ID-* - 划分集：train_OOD 路径：data/train_OOD-* - 划分集：eval_OOD 路径：data/eval_OOD-* - 划分集：test_OOD 路径：data/test_OOD-*

提供机构：

lecslab

原始信息汇总

数据集概述

本数据集是一个跨近两千种语言的语料库，包含了多种来源的中间语义注释文本（Interlinear Glossed Text, IGT），并采用标准化格式进行编排。

5,000+

优质数据集

54 个

任务类型

进入经典数据集