five

LombardoGraphia

收藏
arXiv2026-03-30 更新2026-04-01 收录
下载链接:
https://github.com/edoardosignoroni/lmo_graphia
下载链接
链接失效反馈
官方服务:
资源简介:
LombardoGraphia是由马萨里克大学构建的首个多正字法伦巴第语标注语料库,包含来自维基百科的11,186条文本样本,涵盖9种正字法变体。该数据集经过严格清洗和标注,包含训练集、验证集和测试集划分,并附有正字法系统与地理分布的元数据。数据采集过程涉及对原始维基内容的过滤与标准化处理,旨在解决低资源语言伦巴第语因缺乏统一书写标准导致的NLP资源开发难题,为语言识别、正字法归一化等任务提供基础设施。
提供机构:
马萨里克大学·信息学院
创建时间:
2026-03-30
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: Automatic Classifier of Lombard Orthography Variants
  • 数据集地址: https://github.com/edoardosignoroni/lmo_graphia
  • 主要用途: 自动将伦巴第语文本分类为不同的正字法变体。
  • 支持方法: 支持传统机器学习(sklearn)和深度学习(PyTorch)方法。

支持的正字法变体

该分类器识别以下伦巴第语正字法变体:

  • MILCLASS - 古典米兰正字法
  • LOCC - 统一西伦巴第语
  • LORUNIF - 统一东伦巴第语
  • SL - Scriver Lombard
  • NOL - 新伦巴第正字法
  • CRES - 克雷莫纳正字法
  • BREMOD - 现代布雷西亚正字法
  • BERGDUC - 贝加莫正字法

数据集结构与统计

存储库结构

ortho_classifier/ ├── README.md ├── data/ │ ├── gold/ # 标注训练数据 │ │ ├── train.jsonl # 8,950 个训练样本 │ │ ├── valid.jsonl # 1,118 个验证样本 │ │ └── test.jsonl # 1,118 个测试样本 │ └── no-tag/ # 自动标注数据 │ └── no-tag.jsonl # 94,520 个样本 ├── models/ # 预训练模型 └── scripts/ ├── classifiers.py # 核心分类器类定义 ├── train_classifier.py # 训练脚本 ├── apply_classifier.py # 分类脚本 └── usage.md # 参考文档

黄金标准数据集统计

数据划分

划分 样本数
训练集 8,950
验证集 1,118
测试集 1,118
总计 11,186

训练集标签分布

变体 数量 百分比
MILCLASS 3,606 40.3%
LOCC 2,907 32.5%
LORUNIF 1,901 21.2%
SL 174 1.9%
NOL 109 1.2%
CRES 98 1.1%
BREMOD 94 1.1%
BERGDUC 59 0.7%
LSI 2 0.0%
总计 8,950 100%

模型性能

性能指标以准确率(%)表示,涵盖了多种模型和特征组合。

最佳与最差性能摘要

指标 MILCLASS LOCC LORUNIF SL NOL CRES BREMOD BERGDUC Overall Avg Class
最佳准确率 98.88 96.58 99.13 100.0 75.00 100.0 69.23 83.33 96.06 85.78
最差准确率 83.86 85.00 84.28 0.00 0.00 0.00 0.00 0.00 87.20 35.42
准确率范围 15.02 11.58 14.85 100.0 75.00 100.0 69.23 83.33 8.86 50.36

引用

如果使用此分类器,请引用:

Edoardo Signoroni and Pavel Rýchly, LombardoGraphia: Automatic Classification of Lombard Orthography Variants, Upcoming

许可信息

  • 数据集许可: CC-BY-SA 4.0
  • 软件许可: GPL-3.0

致谢

本工作得到了捷克共和国教育、青年和体育部的支持,项目编号:LM2023062 LINDAT/CLARIAH-CZ。 感谢伦巴第语维基百科的志愿者和贡献者创建数据并提供有益的讨论和信息。

搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言处理领域,构建高质量标注数据集是推动技术发展的基石。LombardoGraphia数据集的构建始于对伦巴第语维基百科原始内容的系统性采集,利用维基百科自带的拼写变体标签作为标注依据。研究团队通过wikiextractor工具剥离标记语言,提取纯文本,并依据文章中嵌入的正字法标签进行自动分类,将未标注文本归入特定类别。随后经过严格的数据清洗流程,包括去重、非伦巴第语内容过滤、短句剔除以及机器人生成文本的移除,最终从初始的295,379行文本中精炼出11,186个标注样本,确保了语料库在语言纯度和正字法特征上的代表性。
特点
该数据集的核心特征体现在其针对伦巴第语九种正字法变体的精细标注体系,涵盖了泛伦巴第、宏观方言及地方性拼写系统。语料库呈现出显著的类别不均衡性,其中米兰古典正字法、统一因苏布里亚正字法及统一东方正字法三大类别占据了94%以上的样本,而如简化伦巴第书写等少数变体则样本稀缺。这种分布客观反映了维基百科社区的实际使用偏好,为研究数据不平衡条件下的分类算法提供了真实场景。数据集采用标准化的训练集、验证集和测试集划分,并以JSONL格式发布,每条记录包含原始文本及其对应的正字法类别标签,便于机器学习模型的直接调用与评估。
使用方法
该数据集主要服务于伦巴第语正字法的自动分类研究,为传统机器学习与神经网络模型提供了基准训练资源。使用者可依据标准数据划分方案,利用字符级、字节级或词级n-gram特征提取方法,结合逻辑回归、支持向量机等分类器进行模型训练与优化。在应用层面,训练完成的分类模型能够对未标注的伦巴第语文本进行正字法变体识别,进而支持语料库按变体分类构建、语言资源开发和拼写规范化等下游任务。研究证实,结合多种特征的传统分类模型在该任务上表现优异,为低资源语言变体的自动化处理提供了可复现的技术路径。
背景与挑战
背景概述
在自然语言处理领域,资源匮乏语言的研究长期面临数据稀缺的挑战。伦巴第语作为意大利北部及瑞士南部约380万人使用的语言变体,因缺乏统一的正字法标准,其计算语言学资源开发长期受阻。2026年,马萨里克大学信息学院的Edoardo Signoroni与Pavel Rychlý创建了LombardoGraphia数据集,旨在通过自动分类九种伦巴第语正字法变体,为构建方言感知的NLP基础设施提供关键支持。该数据集包含11,186个来自伦巴第语维基百科的标注样本,不仅填补了该语言自动正字法分类的研究空白,更为濒危语言变体的数字化保存与计算建模奠定了重要基础。
当前挑战
LombardoGraphia数据集致力于解决伦巴第语正字法自动分类的核心挑战,其核心问题在于如何准确识别与区分九种高度相似且缺乏统一标准的正字法变体。构建过程中的主要挑战体现在数据的高度不平衡性,多数类样本占比超过94%,而少数类样本稀缺,导致模型对少数类的分类性能显著下降。此外,数据源局限于维基百科文本,缺乏日常书写及书籍文献中的主观正字法变体,限制了模型的泛化能力。同时,不同正字法变体在字形、词汇及主题上的高度相似性,进一步加剧了分类任务的复杂性,传统机器学习方法虽在整体准确率上表现优异,但对少数类的识别仍面临严峻考验。
常用场景
经典使用场景
在低资源语言技术研究中,LombardoGraphia数据集为伦巴第语这一缺乏统一正字法标准的语言变体提供了首个系统性的正字法分类基准。该数据集通过精心标注的11,186个维基百科文本样本,覆盖了九种主要的正字法变体,为语言识别和方言分类任务提供了标准化的评估框架。研究人员利用该数据集训练了包括传统机器学习模型和神经网络在内的24种分类器,其中支持向量机模型在综合特征下达到了96.06%的整体准确率,为后续的伦巴第语自然语言处理研究奠定了坚实的数据基础。
实际应用
在实际应用层面,LombardoGraphia数据集为伦巴第语社区的数字化发展提供了关键技术支撑。基于该数据集训练的分类模型可直接应用于维基百科内容的自动化标注系统,帮助社区志愿者快速识别和整理不同正字法变体的文本资源。在语言教育领域,这些模型能够辅助开发智能化的正字法转换工具,支持不同书写习惯的使用者进行跨变体交流。对于语言政策制定者而言,数据集提供的变体分布数据为语言资源分配和标准化决策提供了实证依据。此外,分类技术还可集成到多语言机器翻译系统中,提升对伦巴第语变体的处理能力。
衍生相关工作
该数据集的发布催生了多个方向的相关研究。在方法论层面,研究者基于其不平衡数据特性开发了针对少数正字法变体的数据增强技术,如基于规则的正字法转换和跨变体迁移学习。在资源建设方面,后续工作利用分类模型对未标注的伦巴第语文献进行自动化整理,构建了规模更大的多模态语料库。部分研究将该数据集的分类框架扩展至其他意大利语言变体,形成了跨变体的对比分析体系。更有学者将正字法分类与方言地理信息系统相结合,开发了能够可视化语言变体分布的数字人文工具。这些衍生工作共同推动了低资源语言计算研究向更精细化的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作