five

smugri4-data

收藏
Hugging Face2025-12-05 更新2025-12-06 收录
下载链接:
https://huggingface.co/datasets/tartuNLP/smugri4-data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含多种芬兰-乌戈尔语系语言和方言(不包括芬兰语和匈牙利语)的单语和多语文本语料库的集合。多语语料库还包括其他语言作为翻译等效语言,其中包括爱沙尼亚语、芬兰语和匈牙利语。数据集旨在为语言技术,尤其是机器翻译提供数据支持。数据集以JSON格式呈现,包含不同粒度(如单词、短语、句子、段落等)和连贯性的文本材料,并附有丰富的元信息,如方言、正字法、作者、标题、出版年份等。数据集的创建过程涉及将原始文本转换为JSON格式,并根据文本的性质进行分类。原始文本来源于多种出版物和语料库,许可信息根据来源不同而有所变化。
提供机构:
TartuNLP
创建时间:
2025-11-28
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: lingrel2025
  • 许可证: CC-BY-NC-SA 4.0
  • 主页: 未提供
  • 仓库: 未提供
  • 论文: 未提供
  • 联系人: 未提供

数据集描述

数据集摘要

该数据集是标准爱沙尼亚语的许多亲属语言(即芬兰-乌戈尔语系的语言和方言,不包括芬兰语和匈牙利语)的单语和多语文本语料库的集合。多语语料库包含作为翻译对等语的其他语言,其中也包括爱沙尼亚语、芬兰语和匈牙利语。

其目标是为语言技术,首先是机器翻译,提供数据。

语言列表

芬兰-乌戈尔语系亲属语言

ISO 639-3 语言 词元数量
fit 托尔讷河谷芬兰语 (Meänkieli) 8750
fkv 克文语 (Kven Finnish) 55506
izh 英格里亚语 (= Izhorian) 249093
kca 汉特语 97611
koi 科米-彼尔米亚克语 382071
kpv 科米-兹梁语 18194967
krl 卡累利阿语 (Proper Karelian) 981158
liv 利沃尼亚语 15035
lud 卢迪语 291293
mdf 莫克沙语 822508
mhr 草原马里语 6360111
mns 曼西语 263280
mrj 山地马里语 1494257
myv 埃尔齐亚语 2526670
olo 利维-卡累利阿语 (Olonets) 1245935
sjd 基尔丁萨米语 1338
sju 于默萨米语 619
sma 南萨米语 1703932
sme 北萨米语 21540241
smj 吕勒萨米语 950311
smn 伊纳里萨米语 1217515
sms 斯科尔特萨米语 380250
udm 乌德穆尔特语 1294508
vep 维普斯语 2383752
vot 沃提克语 48107
vro 沃罗语 3266531

爱沙尼亚语方言

方言 词元数量
hiiu 9095
kihnu 66001
mulgi 26895
ranna 9887
setu 283598

翻译对等语语言

ISO 639-3 语言 词元数量
deu 德语 5729
eng 英语 26160
est 爱沙尼亚语 1937069
fin 芬兰语 1690382
fra 法语 6300
hun 匈牙利语 1573
lav 拉脱维亚语 1529
nno 挪威尼诺斯克语 1734
nob 挪威博克马尔语 5466
nor 挪威语 4425857
rus 俄语 23503423
swe 瑞典语 6002

数据集结构

  • 数据格式: 文本以JSON格式表示。结构、键和值在 pydantic_for_lingrel2025.py 中定义。
  • 文本材料类型: 数据集区分具有不同粒度和连贯性的语言单元集合:
    1. 不相关的单词和短语(例如词典或短语手册)
    2. 不相关的句子(例如词典或短语手册)
    3. 连贯的段落和句子序列(例如带有结构标记的小说)
    4. 没有明确拆分为句子的连贯文本
  • 元信息: 每个文件都包含文本本身以及详细说明该文本所有信息的元信息。
  • 多语言性: 上述任何类型都可能适用于单语或多语源(即带有翻译的文本)。
  • 附加信息: 除了粒度和单/多语性,数据集还包含关于方言和正字法的信息,以及关于原始资料(作者、标题、出版年份等)和来源(语料库、网页、文件名等)的信息。
  • 文件组织: 数据按目录组织。文件路径名包含以下部分:语言ISO代码 / "mono" 或 "multi" / 来源语料库名称的专名 / 来源文件名的专名。

数据集创建

  • 数据处理: 原始文本已转换为JSON。根据源数据的性质,分为四类(如上所述)。无法映射到任何这些类别的源数据被排除。
  • 语言验证: 在某些情况下,使用 GlotLID 额外检查了源文本的语言,错误的语言文本被排除。
  • 正字法: 正字法未经检查或修改。

源数据

该数据集基于各种已有的出版物和语料库构建:corpus_source.md

许可信息

所有原始文本内容均根据 知识共享许可协议(根据来源不同,可能是 CC-BY、CC-BY-SA、CC-BY-NC 或 CC-BY-NC-SA)或同等许可协议许可,或属于公共领域。

引用信息

@InProceedings{smugri4mt, title={SMUGRI-4: Machine-Translating Low-resource Finno-Ugric Languages and Dialects with Care and Caution}, authors={Lisa Yankovskaya and Mark Fishel and Elena Markus and Fedor Rozhanskiy and Heiki-Jaan Kaalep and Idaliia Fedotova and Ilia Moshnikov and Janek Vaab and Joshua Wilbur and Liisa Rätsep and Marili Tomingas and Michael Rie{ss}ler and Nikolay Kuznetsov and Taido Purason and Valts Ernv{s}treits }, year={2025}, booktitle={Proceedings of EACL, the 19th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations}, pages={submitted}, address={Rabat, Morocco} }

贡献者

以下人员通过收集或处理原始数据做出了贡献: Britt-Kathleen Mere, Aleksei Ivanov, Tarmo Vaino, Annely-Maria Liivas, Kaire Koljal, Lisa Yankovskaya, Heiki-Jaan Kaalep, Mark Fišel

搜集汇总
数据集介绍
main_image_url
构建方式
在乌拉尔语系语言资源稀缺的背景下,该数据集通过系统整合多种现有出版物与语料库构建而成。原始文本经过精心筛选与转换,依据文本结构特征被归类为四种类型:无关词汇与短语、独立句子、连贯段落序列以及未分句的连贯文本。构建过程中运用GlotLID工具进行语言验证,排除不符合语言类别的材料,同时保持原始正字法不变。所有文本均以JSON格式结构化存储,并附带详尽的元数据,涵盖方言、正字法、作者及来源等信息,确保了数据的完整性与可追溯性。
使用方法
该数据集主要服务于语言技术领域,特别是机器翻译系统的开发与评估。使用者可通过解析JSON文件获取文本内容及元数据,利用语言与方言标签进行语料筛选。对于多语言文本,可提取翻译对等关系以构建平行语料。研究人员可依据文本粒度信息,适配不同自然语言处理任务,如词典编纂、句法分析或篇章翻译。数据遵循知识共享许可协议,使用时需遵守对应源数据的授权条款,并引用提供的学术文献以尊重贡献者的工作。
背景与挑战
背景概述
语言资源数据集lingrel2025由爱沙尼亚塔尔图大学等研究机构于2025年创建,旨在系统收集芬兰-乌戈尔语系中除芬兰语和匈牙利语外的多种低资源语言及方言的文本语料,涵盖托尔讷河谷芬兰语、卡累利阿语、马里语等二十余种语言变体,并包含爱沙尼亚方言及多语翻译对照文本。该数据集的核心研究问题聚焦于为机器翻译等语言技术任务提供稀缺的多语言平行数据,以推动低资源语言在自然语言处理领域的可及性与技术发展,对保护语言多样性及促进跨语言信息处理具有重要学术价值。
当前挑战
该数据集致力于解决低资源芬兰-乌戈尔语言机器翻译所面临的数据稀缺性挑战,具体包括语言变体众多且文本规模差异显著、部分语料仅存有限数字化资源,以及方言与标准语间正字法不统一导致的模型泛化困难。在构建过程中,研究人员需从分散的既有出版物与语料库中整合多源异构文本,并依据文本连贯性进行结构化分类;同时,通过语言识别工具过滤非目标语言材料,且在不干预正字法的前提下保持原始文本特征,这些步骤均增加了数据清洗与标准化的复杂性。
常用场景
解决学术问题
该数据集主要解决了低资源语言在自然语言处理研究中面临的数据匮乏问题,特别是芬兰-乌戈尔语系中诸多语言因使用人口较少而缺乏大规模标注语料的困境。通过提供结构化的多语言文本,它支持跨语言表示学习、迁移学习及少样本学习等前沿方法的应用,促进了语言技术在这些语种上的公平性与包容性发展。其意义在于为语言多样性保护与数字包容提供了数据基础,推动了计算语言学在非主流语言领域的实证研究。
实际应用
在实际应用层面,该数据集可服务于多语言信息检索、跨语言内容生成及教育技术工具的开发。例如,基于其构建的机器翻译系统能够帮助使用这些语言的社区获取数字内容,支持文化遗产的数字化保存与传播。此外,在语言教学与学习平台中,该数据可用于创建自动翻译辅助工具,促进语言复兴与教育平等,为边缘化语言群体提供技术赋能,增强其在全球信息社会中的参与度。
数据集最近研究
最新研究方向
在低资源语言技术领域,针对芬兰-乌戈尔语系(除芬兰语和匈牙利语外)及其方言的机器翻译研究正成为前沿焦点。该数据集通过整合多种语言亲属的文本语料,包括单语与多语翻译对,为构建跨语言模型提供了关键资源。当前研究热点集中于利用此类数据开发多语言神经机器翻译系统,以应对数据稀缺挑战,同时关注语言保护与数字包容性议题。这些工作不仅推动了自然语言处理技术在非主流语言中的应用,也为语言学研究和文化遗产数字化保存提供了技术支撑,具有显著的学术与社会意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作