smugri4-data

Name: smugri4-data
Creator: TartuNLP
Published: 2025-12-05 16:44:41
License: 暂无描述

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/tartuNLP/smugri4-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含多种芬兰-乌戈尔语系语言和方言（不包括芬兰语和匈牙利语）的单语和多语文本语料库的集合。多语语料库还包括其他语言作为翻译等效语言，其中包括爱沙尼亚语、芬兰语和匈牙利语。数据集旨在为语言技术，尤其是机器翻译提供数据支持。数据集以JSON格式呈现，包含不同粒度（如单词、短语、句子、段落等）和连贯性的文本材料，并附有丰富的元信息，如方言、正字法、作者、标题、出版年份等。数据集的创建过程涉及将原始文本转换为JSON格式，并根据文本的性质进行分类。原始文本来源于多种出版物和语料库，许可信息根据来源不同而有所变化。

提供机构：

TartuNLP

创建时间：

2025-11-28

原始信息汇总

数据集概述

数据集基本信息

数据集名称: lingrel2025
许可证: CC-BY-NC-SA 4.0
主页: 未提供
仓库: 未提供
论文: 未提供
联系人: 未提供

数据集描述

数据集摘要

该数据集是标准爱沙尼亚语的许多亲属语言（即芬兰-乌戈尔语系的语言和方言，不包括芬兰语和匈牙利语）的单语和多语文本语料库的集合。多语语料库包含作为翻译对等语的其他语言，其中也包括爱沙尼亚语、芬兰语和匈牙利语。

其目标是为语言技术，首先是机器翻译，提供数据。

语言列表

芬兰-乌戈尔语系亲属语言

ISO 639-3	语言	词元数量
fit	托尔讷河谷芬兰语 (Meänkieli)	8750
fkv	克文语 (Kven Finnish)	55506
izh	英格里亚语 (= Izhorian)	249093
kca	汉特语	97611
koi	科米-彼尔米亚克语	382071
kpv	科米-兹梁语	18194967
krl	卡累利阿语 (Proper Karelian)	981158
liv	利沃尼亚语	15035
lud	卢迪语	291293
mdf	莫克沙语	822508
mhr	草原马里语	6360111
mns	曼西语	263280
mrj	山地马里语	1494257
myv	埃尔齐亚语	2526670
olo	利维-卡累利阿语 (Olonets)	1245935
sjd	基尔丁萨米语	1338
sju	于默萨米语	619
sma	南萨米语	1703932
sme	北萨米语	21540241
smj	吕勒萨米语	950311
smn	伊纳里萨米语	1217515
sms	斯科尔特萨米语	380250
udm	乌德穆尔特语	1294508
vep	维普斯语	2383752
vot	沃提克语	48107
vro	沃罗语	3266531

爱沙尼亚语方言

方言	词元数量
hiiu	9095
kihnu	66001
mulgi	26895
ranna	9887
setu	283598

翻译对等语语言

ISO 639-3	语言	词元数量
deu	德语	5729
eng	英语	26160
est	爱沙尼亚语	1937069
fin	芬兰语	1690382
fra	法语	6300
hun	匈牙利语	1573
lav	拉脱维亚语	1529
nno	挪威尼诺斯克语	1734
nob	挪威博克马尔语	5466
nor	挪威语	4425857
rus	俄语	23503423
swe	瑞典语	6002

数据集结构

数据格式: 文本以JSON格式表示。结构、键和值在 pydantic_for_lingrel2025.py 中定义。
文本材料类型: 数据集区分具有不同粒度和连贯性的语言单元集合：
1. 不相关的单词和短语（例如词典或短语手册）
2. 不相关的句子（例如词典或短语手册）
3. 连贯的段落和句子序列（例如带有结构标记的小说）
4. 没有明确拆分为句子的连贯文本
元信息: 每个文件都包含文本本身以及详细说明该文本所有信息的元信息。
多语言性: 上述任何类型都可能适用于单语或多语源（即带有翻译的文本）。
附加信息: 除了粒度和单/多语性，数据集还包含关于方言和正字法的信息，以及关于原始资料（作者、标题、出版年份等）和来源（语料库、网页、文件名等）的信息。
文件组织: 数据按目录组织。文件路径名包含以下部分：语言ISO代码 / "mono" 或 "multi" / 来源语料库名称的专名 / 来源文件名的专名。

数据集创建

数据处理: 原始文本已转换为JSON。根据源数据的性质，分为四类（如上所述）。无法映射到任何这些类别的源数据被排除。
语言验证: 在某些情况下，使用 GlotLID 额外检查了源文本的语言，错误的语言文本被排除。
正字法: 正字法未经检查或修改。

源数据

该数据集基于各种已有的出版物和语料库构建：corpus_source.md

许可信息

所有原始文本内容均根据知识共享许可协议（根据来源不同，可能是 CC-BY、CC-BY-SA、CC-BY-NC 或 CC-BY-NC-SA）或同等许可协议许可，或属于公共领域。

引用信息

@InProceedings{smugri4mt, title={SMUGRI-4: Machine-Translating Low-resource Finno-Ugric Languages and Dialects with Care and Caution}, authors={Lisa Yankovskaya and Mark Fishel and Elena Markus and Fedor Rozhanskiy and Heiki-Jaan Kaalep and Idaliia Fedotova and Ilia Moshnikov and Janek Vaab and Joshua Wilbur and Liisa Rätsep and Marili Tomingas and Michael Rie{ss}ler and Nikolay Kuznetsov and Taido Purason and Valts Ernv{s}treits }, year={2025}, booktitle={Proceedings of EACL, the 19th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations}, pages={submitted}, address={Rabat, Morocco} }

贡献者

以下人员通过收集或处理原始数据做出了贡献： Britt-Kathleen Mere, Aleksei Ivanov, Tarmo Vaino, Annely-Maria Liivas, Kaire Koljal, Lisa Yankovskaya, Heiki-Jaan Kaalep, Mark Fišel

搜集汇总

数据集介绍

构建方式

在乌拉尔语系语言资源稀缺的背景下，该数据集通过系统整合多种现有出版物与语料库构建而成。原始文本经过精心筛选与转换，依据文本结构特征被归类为四种类型：无关词汇与短语、独立句子、连贯段落序列以及未分句的连贯文本。构建过程中运用GlotLID工具进行语言验证，排除不符合语言类别的材料，同时保持原始正字法不变。所有文本均以JSON格式结构化存储，并附带详尽的元数据，涵盖方言、正字法、作者及来源等信息，确保了数据的完整性与可追溯性。

使用方法

该数据集主要服务于语言技术领域，特别是机器翻译系统的开发与评估。使用者可通过解析JSON文件获取文本内容及元数据，利用语言与方言标签进行语料筛选。对于多语言文本，可提取翻译对等关系以构建平行语料。研究人员可依据文本粒度信息，适配不同自然语言处理任务，如词典编纂、句法分析或篇章翻译。数据遵循知识共享许可协议，使用时需遵守对应源数据的授权条款，并引用提供的学术文献以尊重贡献者的工作。

背景与挑战

背景概述

语言资源数据集lingrel2025由爱沙尼亚塔尔图大学等研究机构于2025年创建，旨在系统收集芬兰-乌戈尔语系中除芬兰语和匈牙利语外的多种低资源语言及方言的文本语料，涵盖托尔讷河谷芬兰语、卡累利阿语、马里语等二十余种语言变体，并包含爱沙尼亚方言及多语翻译对照文本。该数据集的核心研究问题聚焦于为机器翻译等语言技术任务提供稀缺的多语言平行数据，以推动低资源语言在自然语言处理领域的可及性与技术发展，对保护语言多样性及促进跨语言信息处理具有重要学术价值。

当前挑战

该数据集致力于解决低资源芬兰-乌戈尔语言机器翻译所面临的数据稀缺性挑战，具体包括语言变体众多且文本规模差异显著、部分语料仅存有限数字化资源，以及方言与标准语间正字法不统一导致的模型泛化困难。在构建过程中，研究人员需从分散的既有出版物与语料库中整合多源异构文本，并依据文本连贯性进行结构化分类；同时，通过语言识别工具过滤非目标语言材料，且在不干预正字法的前提下保持原始文本特征，这些步骤均增加了数据清洗与标准化的复杂性。

常用场景

解决学术问题

该数据集主要解决了低资源语言在自然语言处理研究中面临的数据匮乏问题，特别是芬兰-乌戈尔语系中诸多语言因使用人口较少而缺乏大规模标注语料的困境。通过提供结构化的多语言文本，它支持跨语言表示学习、迁移学习及少样本学习等前沿方法的应用，促进了语言技术在这些语种上的公平性与包容性发展。其意义在于为语言多样性保护与数字包容提供了数据基础，推动了计算语言学在非主流语言领域的实证研究。

实际应用

在实际应用层面，该数据集可服务于多语言信息检索、跨语言内容生成及教育技术工具的开发。例如，基于其构建的机器翻译系统能够帮助使用这些语言的社区获取数字内容，支持文化遗产的数字化保存与传播。此外，在语言教学与学习平台中，该数据可用于创建自动翻译辅助工具，促进语言复兴与教育平等，为边缘化语言群体提供技术赋能，增强其在全球信息社会中的参与度。

数据集最近研究