five

lecslab/glosslm-corpus-split

收藏
Hugging Face2024-03-10 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/lecslab/glosslm-corpus-split
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含近两千种语言的交错注释文本(IGT)的汇编,这些文本来自不同的来源,并以标准化的格式呈现。

# 多语言语际标注文本数据集 <!-- 请提供本数据集的简要概述 --> 本数据集汇集了来自多种来源、覆盖近两千种语言的标准化格式语际标注文本(interlinear glossed text,IGT)。 ## 数据集详情 ### 数据集概述 <!-- 请提供本数据集的详细摘要 --> <!-- - **数据 curated 者:** [需补充更多信息] - **资助方(可选):** [需补充更多信息] - **分享方(可选):** [需补充更多信息] --> - **许可协议:** CC BY 4.0 ### 数据集来源(可选) <!-- 请提供本数据集的基础链接 --> - **代码仓库:** https://github.com/foltaProject/glosslm/settings - **相关论文(可选):** 即将发表... ## 直接用途 <!-- 本节描述本数据集的适用场景 --> - 训练语际标注文本生成模型 - 开展跨语言语际标注文本的语言学分析 - 将语际标注文本应用于机器翻译等下游任务 ## 数据集结构 <!-- 本节描述数据集的字段信息,以及划分标准、数据点关联关系等额外结构信息 --> [需补充更多信息] ## 数据集构建 ### 源数据 <!-- 本节描述源数据的相关信息,例如新闻文本与标题、社交媒体帖子、翻译句对等 --> - IMTVault 1.1(https://imtvault.org) - ODIN(http://depts.washington.edu/uwcl/odin/) - APiCS(https://apics-online.info) - UraTyp(https://uralic.clld.org) - 瓜拉尼语语料库(https://guaranicorpus.usc.edu) - 2023年SIGMORPHON共享任务(https://github.com/sigmorphon/2023GlossingST) #### 数据收集与处理 <!-- 本节描述数据收集与处理流程,例如数据选择标准、过滤与归一化方法、使用的工具与库等 --> [需补充更多信息] #### 源数据生产者 <!-- 本节描述原始创建源数据的个人或系统。若可获取,还应包含源数据创作者自行申报的人口统计或身份信息 --> [需补充更多信息] ### 标注信息(可选) <!-- 若数据集包含初始数据收集以外的标注内容,请使用本节描述相关信息 --> #### 标注流程 <!-- 本节描述标注流程,例如标注过程中使用的工具、标注数据量、提供给标注者的标注指南、标注者间一致性统计、标注验证等 --> [需补充更多信息] #### 标注者信息 <!-- 本节描述创建标注的个人或系统 --> [需补充更多信息] #### 个人与敏感信息 <!-- 说明本数据集是否包含可被视为个人、敏感或隐私的数据(例如:显示地址、唯一可识别的姓名或别名、种族或族裔起源、性取向、宗教信仰、政治观点、财务或健康数据等)。若已对数据进行匿名化处理,请描述匿名化流程 --> [需补充更多信息] ## 偏差、风险与局限性 <!-- 本节旨在说明技术与社会技术层面的局限性 --> [需补充更多信息] ### 建议事项 <!-- 本节旨在针对偏差、风险与技术局限性给出相关建议 --> 用户应知晓本数据集存在的风险、偏差与局限性,相关进一步建议待补充。 ## 引用信息(可选) <!-- 若有介绍本数据集的论文或博客文章,本节应包含其APA与BibTeX引用格式 --> **BibTeX格式:** [需补充更多信息] **APA格式:** [需补充更多信息] ## 术语表(可选) <!-- 若有需要,请包含可帮助读者理解本数据集或数据集卡片的术语与计算方法 --> [需补充更多信息] ## 更多信息(可选) [需补充更多信息] ## 数据集卡片作者(可选) [需补充更多信息] ## 数据集卡片联系人 [需补充更多信息] --- 数据集信息: 特征: - 名称:转录文本(transcription) 数据类型:字符串 - 名称:语际标注(glosses) 数据类型:字符串 - 名称:翻译文本(translation) 数据类型:字符串 - 名称:格洛托语系代码(glottocode) 数据类型:字符串 - 名称:唯一标识符(id) 数据类型:字符串 - 名称:来源(source) 数据类型:字符串 - 名称:元语言格洛托语系代码(metalang_glottocode) 数据类型:字符串 - 名称:是否分词(is_segmented) 数据类型:字符串 - 名称:语言名称(language) 数据类型:字符串 - 名称:元语言(metalang) 数据类型:字符串 划分集: - 名称:通用训练集(train) 字节大小:93769783 样本数量:418718 - 名称:同分布训练集(train_ID) 字节大小:25048415 样本数量:104928 - 名称:同分布验证集(eval_ID) 字节大小:2732125 样本数量:11138 - 名称:同分布测试集(test_ID) 字节大小:2869258 样本数量:11940 - 名称:跨分布训练集(train_OOD) 字节大小:1817406 样本数量:7356 - 名称:跨分布验证集(eval_OOD) 字节大小:249722 样本数量:984 - 名称:跨分布测试集(test_OOD) 字节大小:240556 样本数量:972 下载大小:38002540 数据集总大小:126727265 配置项: - 配置名称:默认配置(default) 数据文件: - 划分集:train 路径:data/train-* - 划分集:train_ID 路径:data/train_ID-* - 划分集:eval_ID 路径:data/eval_ID-* - 划分集:test_ID 路径:data/test_ID-* - 划分集:train_OOD 路径:data/train_OOD-* - 划分集:eval_OOD 路径:data/eval_OOD-* - 划分集:test_OOD 路径:data/test_OOD-*
提供机构:
lecslab
原始信息汇总

数据集概述

本数据集是一个跨近两千种语言的语料库,包含了多种来源的中间语义注释文本(Interlinear Glossed Text, IGT),并采用标准化格式进行编排。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作