keelesugulased

Name: keelesugulased
Creator: TartuNLP
Published: 2025-11-28 19:49:55
License: 暂无描述

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/tartuNLP/keelesugulased

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含许多与标准爱沙尼亚语相关的单语和双语文本语料库的集合，主要包含芬兰-乌戈尔语系的语言和方言，不包括芬兰语和匈牙利语。双语语料库还包括其他语言的翻译对等物，其中包括爱沙尼亚语、芬兰语和匈牙利语。该数据集的目的是为语言技术提供数据，尤其是为了机器翻译。

This dataset comprises a collection of multiple monolingual and bilingual text corpora associated with standard Estonian. It primarily includes languages and dialects of the Finno-Ugric language family, with Finnish and Hungarian excluded. The bilingual corpora further feature translation equivalents paired with additional languages, among which are Estonian, Finnish, and Hungarian. The core purpose of this dataset is to provide data resources for language technology, especially for machine translation applications.

提供机构：

TartuNLP

创建时间：

2025-11-28

原始信息汇总

数据集概述：language_relatives_2025

数据集简介

该数据集是标准爱沙尼亚语多种亲属语言（即芬兰-乌戈尔语系语言和方言，不包括芬兰语和匈牙利语）的单语及多语文本语料库集合。多语语料库包含其他语言作为翻译对等语，其中也包括爱沙尼亚语、芬兰语和匈牙利语。

主要目标是为语言技术提供数据，首要应用于机器翻译领域。

语言构成

芬兰-乌戈尔语系亲属语言

ISO 639-3	语言名称	词元数量
fit	托尔讷河谷芬兰语	8750
fkv	克文芬兰语	55506
izh	英格里亚语	249093
kca	汉特语	97611
koi	科米-彼尔米亚克语	382071
kpv	科米-兹梁语	18194967
krl	卡累利阿语	981158
liv	利沃尼亚语	15035
lud	卢迪安语	291293
mdf	莫克沙语	822508
mhr	草原马里语	6360111
mns	曼西语	263280
mrj	山地马里语	1494257
myv	厄尔齐亚语	2526670
olo	利维-卡累利阿语	1245935
sjd	基尔丁萨米语	1338
sju	于默萨米语	619
sma	南萨米语	1703932
sme	北萨米语	21540241
smj	吕勒萨米语	950311
smn	伊纳里萨米语	1217515
sms	斯科尔特萨米语	380250
udm	乌德穆尔特语	1294508
vep	维普斯语	2383752
vot	沃提克语	48107
vro	佛洛语	3266531

爱沙尼亚语方言

方言	词元数量
hiiu	9095
kihnu	66001
mulgi	26895
ranna	9887
setu	283598

翻译对等语言

ISO 639-3	语言	词元数量
deu	德语	5729
eng	英语	26160
est	爱沙尼亚语	1937069
fin	芬兰语	1690382
fra	法语	6300
hun	匈牙利语	1573
lav	拉脱维亚语	1529
nno	新挪威语	1734
nob	书面挪威语	5466
nor	挪威语	4425857
rus	俄语	23503423
swe	瑞典语	6002

数据结构

文本采用JSON格式表示
包含四种文本类型：不相关单词和短语、不相关句子、连贯段落序列、无明确句子分割的连贯文本
包含方言、正字法、作者、标题、出版年份等元信息
数据按目录组织：语言ISO代码/单多语类型/语料库来源/文件来源

数据来源

基于各种现有出版物和语料库构建，具体来源参见：https://huggingface.co/datasets/tartuNLP/keelesugulased/blob/main/corpus_source.md

许可信息

所有原始文本内容均采用知识共享许可协议（根据来源不同分别为CC-BY、CC-BY-SA、CC-BY-NC或CC-BY-NC-SA）或同等许可协议，或属于公共领域。

贡献者

Britt-Kathleen Mere, Aleksei Ivanov, Tarmo Vaino, Annely-Maria Liivas, Kaire Koljal, Lisa Yankovskaya, Heiki-Jaan Kaalep, Mark Fisel

搜集汇总

数据集介绍

构建方式

作为乌戈尔语系语言资源的重要补充，该数据集通过系统化整合现有语料库与出版物构建而成。原始文本经标准化处理转化为JSON格式，依据语言单位的连贯性划分为四类结构：非关联词汇短语、独立句子、带标记的连贯段落以及无分句标记的连续文本。构建过程中采用GlotLID工具进行语言验证，剔除不符合目标语种的内容，同时完整保留原始正字法特征，确保语言数据的原生性与准确性。

使用方法

研究者可通过目录结构快速定位目标语种资源，文件路径按语言ISO编码、单多语类型、源语料库名称的层级组织。数据以标准化JSON格式存储，配合预定义的Pydantic结构规范，便于直接接入自然语言处理流程。该数据集特别适用于低资源机器翻译模型的训练，其多语言平行语料与方言变体数据能为跨语言迁移学习提供重要支撑。

背景与挑战

背景概述

在乌拉尔语系语言资源稀缺的背景下，keelesugulased数据集于2025年由塔尔图大学研究团队主导构建，聚焦芬兰-乌戈尔语支中除芬兰语和匈牙利语外的濒危语言变体。该数据集涵盖26种民族语言及爱沙尼亚方言，旨在通过单语与平行语料库的整合，为低资源语言机器翻译系统提供关键训练数据，推动计算语言学在语言多样性保护领域的发展。

当前挑战

构建过程面临语料异构性挑战，原始材料需统一映射至四类文本结构框架，部分语料因无法归类遭弃用。语言识别环节依赖GlotLID工具进行二次校验，拼写规范未作标准化处理。研究层面需解决低资源语言数据稀疏性问题，尤其如乌梅萨米语等仅含数百词例的语种，其跨语言对齐与语义表征成为机器翻译质量提升的核心瓶颈。

常用场景

经典使用场景

在乌拉尔语言学研究领域，keelesugulased数据集通过整合芬兰-乌戈尔语系中除芬兰语和匈牙利语外的多种语言及方言文本，为机器翻译模型的训练提供了关键资源。该数据集覆盖了从科米语到萨米语等二十余种低资源语言，其多语言平行语料结构支持跨语言对齐研究，尤其在处理形态丰富的黏着语语言对时展现出独特价值。

解决学术问题

该数据集有效缓解了低资源乌拉尔语言在自然语言处理研究中的数据稀缺问题。通过系统收录维普斯语、埃尔齐亚语等濒危语言的数字化文本，为语言技术开发提供了基准数据，显著推动了跨语言表示学习、神经机器翻译等方向的发展，同时为语言保存和复兴的学术研究奠定了数据基础。

实际应用

基于该数据集构建的翻译系统已应用于北欧地区的公共事务服务，例如为萨米语社区提供政府文档的自动翻译。在数字人文领域，学者利用其多层级文本结构开展方言地理学研究，而教育机构则借助其中的短语词典资源开发少数民族语言学习工具，切实促进了语言多样性的保护与传承。

数据集最近研究