keelesugulased
收藏Hugging Face2025-11-28 更新2025-11-29 收录
下载链接:
https://huggingface.co/datasets/tartuNLP/keelesugulased
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含许多与标准爱沙尼亚语相关的单语和双语文本语料库的集合,主要包含芬兰-乌戈尔语系的语言和方言,不包括芬兰语和匈牙利语。双语语料库还包括其他语言的翻译对等物,其中包括爱沙尼亚语、芬兰语和匈牙利语。该数据集的目的是为语言技术提供数据,尤其是为了机器翻译。
This dataset comprises a collection of multiple monolingual and bilingual text corpora associated with standard Estonian. It primarily includes languages and dialects of the Finno-Ugric language family, with Finnish and Hungarian excluded. The bilingual corpora further feature translation equivalents paired with additional languages, among which are Estonian, Finnish, and Hungarian. The core purpose of this dataset is to provide data resources for language technology, especially for machine translation applications.
提供机构:
TartuNLP
创建时间:
2025-11-28
原始信息汇总
数据集概述:language_relatives_2025
数据集简介
该数据集是标准爱沙尼亚语多种亲属语言(即芬兰-乌戈尔语系语言和方言,不包括芬兰语和匈牙利语)的单语及多语文本语料库集合。多语语料库包含其他语言作为翻译对等语,其中也包括爱沙尼亚语、芬兰语和匈牙利语。
主要目标是为语言技术提供数据,首要应用于机器翻译领域。
语言构成
芬兰-乌戈尔语系亲属语言
| ISO 639-3 | 语言名称 | 词元数量 |
|---|---|---|
| fit | 托尔讷河谷芬兰语 | 8750 |
| fkv | 克文芬兰语 | 55506 |
| izh | 英格里亚语 | 249093 |
| kca | 汉特语 | 97611 |
| koi | 科米-彼尔米亚克语 | 382071 |
| kpv | 科米-兹梁语 | 18194967 |
| krl | 卡累利阿语 | 981158 |
| liv | 利沃尼亚语 | 15035 |
| lud | 卢迪安语 | 291293 |
| mdf | 莫克沙语 | 822508 |
| mhr | 草原马里语 | 6360111 |
| mns | 曼西语 | 263280 |
| mrj | 山地马里语 | 1494257 |
| myv | 厄尔齐亚语 | 2526670 |
| olo | 利维-卡累利阿语 | 1245935 |
| sjd | 基尔丁萨米语 | 1338 |
| sju | 于默萨米语 | 619 |
| sma | 南萨米语 | 1703932 |
| sme | 北萨米语 | 21540241 |
| smj | 吕勒萨米语 | 950311 |
| smn | 伊纳里萨米语 | 1217515 |
| sms | 斯科尔特萨米语 | 380250 |
| udm | 乌德穆尔特语 | 1294508 |
| vep | 维普斯语 | 2383752 |
| vot | 沃提克语 | 48107 |
| vro | 佛洛语 | 3266531 |
爱沙尼亚语方言
| 方言 | 词元数量 |
|---|---|
| hiiu | 9095 |
| kihnu | 66001 |
| mulgi | 26895 |
| ranna | 9887 |
| setu | 283598 |
翻译对等语言
| ISO 639-3 | 语言 | 词元数量 |
|---|---|---|
| deu | 德语 | 5729 |
| eng | 英语 | 26160 |
| est | 爱沙尼亚语 | 1937069 |
| fin | 芬兰语 | 1690382 |
| fra | 法语 | 6300 |
| hun | 匈牙利语 | 1573 |
| lav | 拉脱维亚语 | 1529 |
| nno | 新挪威语 | 1734 |
| nob | 书面挪威语 | 5466 |
| nor | 挪威语 | 4425857 |
| rus | 俄语 | 23503423 |
| swe | 瑞典语 | 6002 |
数据结构
- 文本采用JSON格式表示
- 包含四种文本类型:不相关单词和短语、不相关句子、连贯段落序列、无明确句子分割的连贯文本
- 包含方言、正字法、作者、标题、出版年份等元信息
- 数据按目录组织:语言ISO代码/单多语类型/语料库来源/文件来源
数据来源
基于各种现有出版物和语料库构建,具体来源参见:https://huggingface.co/datasets/tartuNLP/keelesugulased/blob/main/corpus_source.md
许可信息
所有原始文本内容均采用知识共享许可协议(根据来源不同分别为CC-BY、CC-BY-SA、CC-BY-NC或CC-BY-NC-SA)或同等许可协议,或属于公共领域。
贡献者
Britt-Kathleen Mere, Aleksei Ivanov, Tarmo Vaino, Annely-Maria Liivas, Kaire Koljal, Lisa Yankovskaya, Heiki-Jaan Kaalep, Mark Fisel
搜集汇总
数据集介绍

构建方式
作为乌戈尔语系语言资源的重要补充,该数据集通过系统化整合现有语料库与出版物构建而成。原始文本经标准化处理转化为JSON格式,依据语言单位的连贯性划分为四类结构:非关联词汇短语、独立句子、带标记的连贯段落以及无分句标记的连续文本。构建过程中采用GlotLID工具进行语言验证,剔除不符合目标语种的内容,同时完整保留原始正字法特征,确保语言数据的原生性与准确性。
使用方法
研究者可通过目录结构快速定位目标语种资源,文件路径按语言ISO编码、单多语类型、源语料库名称的层级组织。数据以标准化JSON格式存储,配合预定义的Pydantic结构规范,便于直接接入自然语言处理流程。该数据集特别适用于低资源机器翻译模型的训练,其多语言平行语料与方言变体数据能为跨语言迁移学习提供重要支撑。
背景与挑战
背景概述
在乌拉尔语系语言资源稀缺的背景下,keelesugulased数据集于2025年由塔尔图大学研究团队主导构建,聚焦芬兰-乌戈尔语支中除芬兰语和匈牙利语外的濒危语言变体。该数据集涵盖26种民族语言及爱沙尼亚方言,旨在通过单语与平行语料库的整合,为低资源语言机器翻译系统提供关键训练数据,推动计算语言学在语言多样性保护领域的发展。
当前挑战
构建过程面临语料异构性挑战,原始材料需统一映射至四类文本结构框架,部分语料因无法归类遭弃用。语言识别环节依赖GlotLID工具进行二次校验,拼写规范未作标准化处理。研究层面需解决低资源语言数据稀疏性问题,尤其如乌梅萨米语等仅含数百词例的语种,其跨语言对齐与语义表征成为机器翻译质量提升的核心瓶颈。
常用场景
经典使用场景
在乌拉尔语言学研究领域,keelesugulased数据集通过整合芬兰-乌戈尔语系中除芬兰语和匈牙利语外的多种语言及方言文本,为机器翻译模型的训练提供了关键资源。该数据集覆盖了从科米语到萨米语等二十余种低资源语言,其多语言平行语料结构支持跨语言对齐研究,尤其在处理形态丰富的黏着语语言对时展现出独特价值。
解决学术问题
该数据集有效缓解了低资源乌拉尔语言在自然语言处理研究中的数据稀缺问题。通过系统收录维普斯语、埃尔齐亚语等濒危语言的数字化文本,为语言技术开发提供了基准数据,显著推动了跨语言表示学习、神经机器翻译等方向的发展,同时为语言保存和复兴的学术研究奠定了数据基础。
实际应用
基于该数据集构建的翻译系统已应用于北欧地区的公共事务服务,例如为萨米语社区提供政府文档的自动翻译。在数字人文领域,学者利用其多层级文本结构开展方言地理学研究,而教育机构则借助其中的短语词典资源开发少数民族语言学习工具,切实促进了语言多样性的保护与传承。
数据集最近研究
最新研究方向
在乌拉尔语系资源稀缺的背景下,该数据集正推动低资源语言机器翻译的前沿探索。研究者们聚焦于跨语言迁移学习,利用爱沙尼亚语及其亲属语言的平行语料优化多语言神经机器翻译模型,尤其关注如科米语、马里语等濒危方言的数字化保护。随着欧盟语言多样性政策的深化,该数据集成为构建区域性语言技术基础设施的核心资源,通过融合语法标注与方言变体数据,显著提升了自动翻译系统在文化敏感场景下的鲁棒性。
以上内容由遇见数据集搜集并总结生成



