five

keelesugulased

收藏
Hugging Face2025-11-28 更新2025-11-29 收录
下载链接:
https://huggingface.co/datasets/tartuNLP/keelesugulased
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含许多与标准爱沙尼亚语相关的单语和双语文本语料库的集合,主要包含芬兰-乌戈尔语系的语言和方言,不包括芬兰语和匈牙利语。双语语料库还包括其他语言的翻译对等物,其中包括爱沙尼亚语、芬兰语和匈牙利语。该数据集的目的是为语言技术提供数据,尤其是为了机器翻译。

This dataset comprises a collection of multiple monolingual and bilingual text corpora associated with standard Estonian. It primarily includes languages and dialects of the Finno-Ugric language family, with Finnish and Hungarian excluded. The bilingual corpora further feature translation equivalents paired with additional languages, among which are Estonian, Finnish, and Hungarian. The core purpose of this dataset is to provide data resources for language technology, especially for machine translation applications.
提供机构:
TartuNLP
创建时间:
2025-11-28
原始信息汇总

数据集概述:language_relatives_2025

数据集简介

该数据集是标准爱沙尼亚语多种亲属语言(即芬兰-乌戈尔语系语言和方言,不包括芬兰语和匈牙利语)的单语及多语文本语料库集合。多语语料库包含其他语言作为翻译对等语,其中也包括爱沙尼亚语、芬兰语和匈牙利语。

主要目标是为语言技术提供数据,首要应用于机器翻译领域。

语言构成

芬兰-乌戈尔语系亲属语言

ISO 639-3 语言名称 词元数量
fit 托尔讷河谷芬兰语 8750
fkv 克文芬兰语 55506
izh 英格里亚语 249093
kca 汉特语 97611
koi 科米-彼尔米亚克语 382071
kpv 科米-兹梁语 18194967
krl 卡累利阿语 981158
liv 利沃尼亚语 15035
lud 卢迪安语 291293
mdf 莫克沙语 822508
mhr 草原马里语 6360111
mns 曼西语 263280
mrj 山地马里语 1494257
myv 厄尔齐亚语 2526670
olo 利维-卡累利阿语 1245935
sjd 基尔丁萨米语 1338
sju 于默萨米语 619
sma 南萨米语 1703932
sme 北萨米语 21540241
smj 吕勒萨米语 950311
smn 伊纳里萨米语 1217515
sms 斯科尔特萨米语 380250
udm 乌德穆尔特语 1294508
vep 维普斯语 2383752
vot 沃提克语 48107
vro 佛洛语 3266531

爱沙尼亚语方言

方言 词元数量
hiiu 9095
kihnu 66001
mulgi 26895
ranna 9887
setu 283598

翻译对等语言

ISO 639-3 语言 词元数量
deu 德语 5729
eng 英语 26160
est 爱沙尼亚语 1937069
fin 芬兰语 1690382
fra 法语 6300
hun 匈牙利语 1573
lav 拉脱维亚语 1529
nno 新挪威语 1734
nob 书面挪威语 5466
nor 挪威语 4425857
rus 俄语 23503423
swe 瑞典语 6002

数据结构

  • 文本采用JSON格式表示
  • 包含四种文本类型:不相关单词和短语、不相关句子、连贯段落序列、无明确句子分割的连贯文本
  • 包含方言、正字法、作者、标题、出版年份等元信息
  • 数据按目录组织:语言ISO代码/单多语类型/语料库来源/文件来源

数据来源

基于各种现有出版物和语料库构建,具体来源参见:https://huggingface.co/datasets/tartuNLP/keelesugulased/blob/main/corpus_source.md

许可信息

所有原始文本内容均采用知识共享许可协议(根据来源不同分别为CC-BY、CC-BY-SA、CC-BY-NC或CC-BY-NC-SA)或同等许可协议,或属于公共领域。

贡献者

Britt-Kathleen Mere, Aleksei Ivanov, Tarmo Vaino, Annely-Maria Liivas, Kaire Koljal, Lisa Yankovskaya, Heiki-Jaan Kaalep, Mark Fisel

搜集汇总
数据集介绍
main_image_url
构建方式
作为乌戈尔语系语言资源的重要补充,该数据集通过系统化整合现有语料库与出版物构建而成。原始文本经标准化处理转化为JSON格式,依据语言单位的连贯性划分为四类结构:非关联词汇短语、独立句子、带标记的连贯段落以及无分句标记的连续文本。构建过程中采用GlotLID工具进行语言验证,剔除不符合目标语种的内容,同时完整保留原始正字法特征,确保语言数据的原生性与准确性。
使用方法
研究者可通过目录结构快速定位目标语种资源,文件路径按语言ISO编码、单多语类型、源语料库名称的层级组织。数据以标准化JSON格式存储,配合预定义的Pydantic结构规范,便于直接接入自然语言处理流程。该数据集特别适用于低资源机器翻译模型的训练,其多语言平行语料与方言变体数据能为跨语言迁移学习提供重要支撑。
背景与挑战
背景概述
在乌拉尔语系语言资源稀缺的背景下,keelesugulased数据集于2025年由塔尔图大学研究团队主导构建,聚焦芬兰-乌戈尔语支中除芬兰语和匈牙利语外的濒危语言变体。该数据集涵盖26种民族语言及爱沙尼亚方言,旨在通过单语与平行语料库的整合,为低资源语言机器翻译系统提供关键训练数据,推动计算语言学在语言多样性保护领域的发展。
当前挑战
构建过程面临语料异构性挑战,原始材料需统一映射至四类文本结构框架,部分语料因无法归类遭弃用。语言识别环节依赖GlotLID工具进行二次校验,拼写规范未作标准化处理。研究层面需解决低资源语言数据稀疏性问题,尤其如乌梅萨米语等仅含数百词例的语种,其跨语言对齐与语义表征成为机器翻译质量提升的核心瓶颈。
常用场景
经典使用场景
在乌拉尔语言学研究领域,keelesugulased数据集通过整合芬兰-乌戈尔语系中除芬兰语和匈牙利语外的多种语言及方言文本,为机器翻译模型的训练提供了关键资源。该数据集覆盖了从科米语到萨米语等二十余种低资源语言,其多语言平行语料结构支持跨语言对齐研究,尤其在处理形态丰富的黏着语语言对时展现出独特价值。
解决学术问题
该数据集有效缓解了低资源乌拉尔语言在自然语言处理研究中的数据稀缺问题。通过系统收录维普斯语、埃尔齐亚语等濒危语言的数字化文本,为语言技术开发提供了基准数据,显著推动了跨语言表示学习、神经机器翻译等方向的发展,同时为语言保存和复兴的学术研究奠定了数据基础。
实际应用
基于该数据集构建的翻译系统已应用于北欧地区的公共事务服务,例如为萨米语社区提供政府文档的自动翻译。在数字人文领域,学者利用其多层级文本结构开展方言地理学研究,而教育机构则借助其中的短语词典资源开发少数民族语言学习工具,切实促进了语言多样性的保护与传承。
数据集最近研究
最新研究方向
在乌拉尔语系资源稀缺的背景下,该数据集正推动低资源语言机器翻译的前沿探索。研究者们聚焦于跨语言迁移学习,利用爱沙尼亚语及其亲属语言的平行语料优化多语言神经机器翻译模型,尤其关注如科米语、马里语等濒危方言的数字化保护。随着欧盟语言多样性政策的深化,该数据集成为构建区域性语言技术基础设施的核心资源,通过融合语法标注与方言变体数据,显著提升了自动翻译系统在文化敏感场景下的鲁棒性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作