lecslab/glosslm-corpus-split
收藏Hugging Face2024-03-10 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/lecslab/glosslm-corpus-split
下载链接
链接失效反馈官方服务:
资源简介:
一个包含近两千种语言的交错注释文本(IGT)的汇编,这些文本来自不同的来源,并以标准化的格式呈现。
# 多语言语际标注文本数据集
<!-- 请提供本数据集的简要概述 -->
本数据集汇集了来自多种来源、覆盖近两千种语言的标准化格式语际标注文本(interlinear glossed text,IGT)。
## 数据集详情
### 数据集概述
<!-- 请提供本数据集的详细摘要 -->
<!-- - **数据 curated 者:** [需补充更多信息]
- **资助方(可选):** [需补充更多信息]
- **分享方(可选):** [需补充更多信息] -->
- **许可协议:** CC BY 4.0
### 数据集来源(可选)
<!-- 请提供本数据集的基础链接 -->
- **代码仓库:** https://github.com/foltaProject/glosslm/settings
- **相关论文(可选):** 即将发表...
## 直接用途
<!-- 本节描述本数据集的适用场景 -->
- 训练语际标注文本生成模型
- 开展跨语言语际标注文本的语言学分析
- 将语际标注文本应用于机器翻译等下游任务
## 数据集结构
<!-- 本节描述数据集的字段信息,以及划分标准、数据点关联关系等额外结构信息 -->
[需补充更多信息]
## 数据集构建
### 源数据
<!-- 本节描述源数据的相关信息,例如新闻文本与标题、社交媒体帖子、翻译句对等 -->
- IMTVault 1.1(https://imtvault.org)
- ODIN(http://depts.washington.edu/uwcl/odin/)
- APiCS(https://apics-online.info)
- UraTyp(https://uralic.clld.org)
- 瓜拉尼语语料库(https://guaranicorpus.usc.edu)
- 2023年SIGMORPHON共享任务(https://github.com/sigmorphon/2023GlossingST)
#### 数据收集与处理
<!-- 本节描述数据收集与处理流程,例如数据选择标准、过滤与归一化方法、使用的工具与库等 -->
[需补充更多信息]
#### 源数据生产者
<!-- 本节描述原始创建源数据的个人或系统。若可获取,还应包含源数据创作者自行申报的人口统计或身份信息 -->
[需补充更多信息]
### 标注信息(可选)
<!-- 若数据集包含初始数据收集以外的标注内容,请使用本节描述相关信息 -->
#### 标注流程
<!-- 本节描述标注流程,例如标注过程中使用的工具、标注数据量、提供给标注者的标注指南、标注者间一致性统计、标注验证等 -->
[需补充更多信息]
#### 标注者信息
<!-- 本节描述创建标注的个人或系统 -->
[需补充更多信息]
#### 个人与敏感信息
<!-- 说明本数据集是否包含可被视为个人、敏感或隐私的数据(例如:显示地址、唯一可识别的姓名或别名、种族或族裔起源、性取向、宗教信仰、政治观点、财务或健康数据等)。若已对数据进行匿名化处理,请描述匿名化流程 -->
[需补充更多信息]
## 偏差、风险与局限性
<!-- 本节旨在说明技术与社会技术层面的局限性 -->
[需补充更多信息]
### 建议事项
<!-- 本节旨在针对偏差、风险与技术局限性给出相关建议 -->
用户应知晓本数据集存在的风险、偏差与局限性,相关进一步建议待补充。
## 引用信息(可选)
<!-- 若有介绍本数据集的论文或博客文章,本节应包含其APA与BibTeX引用格式 -->
**BibTeX格式:**
[需补充更多信息]
**APA格式:**
[需补充更多信息]
## 术语表(可选)
<!-- 若有需要,请包含可帮助读者理解本数据集或数据集卡片的术语与计算方法 -->
[需补充更多信息]
## 更多信息(可选)
[需补充更多信息]
## 数据集卡片作者(可选)
[需补充更多信息]
## 数据集卡片联系人
[需补充更多信息]
---
数据集信息:
特征:
- 名称:转录文本(transcription)
数据类型:字符串
- 名称:语际标注(glosses)
数据类型:字符串
- 名称:翻译文本(translation)
数据类型:字符串
- 名称:格洛托语系代码(glottocode)
数据类型:字符串
- 名称:唯一标识符(id)
数据类型:字符串
- 名称:来源(source)
数据类型:字符串
- 名称:元语言格洛托语系代码(metalang_glottocode)
数据类型:字符串
- 名称:是否分词(is_segmented)
数据类型:字符串
- 名称:语言名称(language)
数据类型:字符串
- 名称:元语言(metalang)
数据类型:字符串
划分集:
- 名称:通用训练集(train)
字节大小:93769783
样本数量:418718
- 名称:同分布训练集(train_ID)
字节大小:25048415
样本数量:104928
- 名称:同分布验证集(eval_ID)
字节大小:2732125
样本数量:11138
- 名称:同分布测试集(test_ID)
字节大小:2869258
样本数量:11940
- 名称:跨分布训练集(train_OOD)
字节大小:1817406
样本数量:7356
- 名称:跨分布验证集(eval_OOD)
字节大小:249722
样本数量:984
- 名称:跨分布测试集(test_OOD)
字节大小:240556
样本数量:972
下载大小:38002540
数据集总大小:126727265
配置项:
- 配置名称:默认配置(default)
数据文件:
- 划分集:train
路径:data/train-*
- 划分集:train_ID
路径:data/train_ID-*
- 划分集:eval_ID
路径:data/eval_ID-*
- 划分集:test_ID
路径:data/test_ID-*
- 划分集:train_OOD
路径:data/train_OOD-*
- 划分集:eval_OOD
路径:data/eval_OOD-*
- 划分集:test_OOD
路径:data/test_OOD-*
提供机构:
lecslab
原始信息汇总
数据集概述
本数据集是一个跨近两千种语言的语料库,包含了多种来源的中间语义注释文本(Interlinear Glossed Text, IGT),并采用标准化格式进行编排。



