Proto-Italic to Latin (PILA) dataset

Name: Proto-Italic to Latin (PILA) dataset
Creator: 圣母大学
Published: 2024-04-25 13:33:47
License: 暂无描述

arXiv2024-04-25 更新2024-06-21 收录

下载链接：

https://github.com/Mythologos/PILA

下载链接

链接失效反馈

官方服务：

资源简介：

PILA数据集是由圣母大学创建的，旨在帮助历史语言学家研究意大利语言的声音变化。该数据集包含约2916对Proto-Italic和Latin的形式，是研究这两种语言之间语音和形态学联系的大型资源。数据集不仅包含完整的词源和反射形式，还提供了多种词形变化，以考虑形态对语音研究的影响。此外，PILA还通过每项条目的注释突出了非语音变化的存在，如类比。该数据集的应用领域主要集中在历史语言学，特别是意大利语言的声音变化研究，旨在解决语言演变过程中的语音变化问题。

The PILA dataset was developed by the University of Notre Dame to support historical linguists in investigating sound changes within the Italic language family. It contains approximately 2,916 pairs of Proto-Italic and Latin forms, making it a substantial resource for studying the phonological and morphological relationships between these two languages. Beyond complete etymologies and reflex forms, the dataset also offers various inflectional forms to account for the influence of morphology on phonological research. Additionally, PILA highlights instances of non-phonological changes (e.g., analogical change) via annotations accompanying each entry. The primary application domain of this dataset is historical linguistics, specifically research on sound changes in Italic languages, with the goal of resolving questions surrounding phonological changes during language evolution.

提供机构：

圣母大学

创建时间：

2024-04-25

搜集汇总

数据集介绍

构建方式

在历史语言学领域，系统性地追踪语言演变过程需要高质量的数据支撑。PILA数据集的构建始于从维基词典中系统性地提取被标记为“源自原始意大利语”的拉丁语词条及其对应的原始意大利语形式，初步形成了词源-派生词对集合。随后，研究团队依据严格的语文学标准对这些词对进行了精细筛选，剔除了部分重构形式、专有名词以及不符合西塞罗时期拉丁语时间范围的条目，确保所有词对均为完全重构形式。在此基础上，通过参照权威词源学词典对语音表征进行了系统化归一处理，并针对动词变位和名词变格补充了大量屈折变化形式，最终构建了包含约3000对词源-派生词的高质量数据集。

使用方法

该数据集主要服务于计算历史语言学的研究与实践。研究者可利用其进行词源重构与派生词预测等经典任务，通过训练序列到序列模型来学习原始意大利语到拉丁语的音变规律。数据集采用跨语言数据格式存储，确保了与LingPy等历史语言学工具库的良好兼容性，便于进行谱系分析和比较研究。此外，数据集提供的重叠标识表支持与其他历史语言学资源进行关联整合，使得构建更长跨度的语言演变链成为可能。用户可通过过滤特定音变模式或屈折类型的子集，开展针对性的音系学或形态音系学研究。

背景与挑战

背景概述

在计算历史语言学领域，系统性地理解语音演变过程，尤其是在缺乏正式语言记录的历史时期，一直是核心研究议题。然而，针对原始语言与其后代语言之间音系和形态联系的深度计算资源相对匮乏，这在意大利语族中尤为明显。为此，圣母大学和苏黎世联邦理工学院的研究团队于2024年推出了Proto-Italic to Latin（PILA）数据集，旨在填补这一空白。该数据集聚焦于原始意大利语与拉丁语之间的词源-反射对关系，收录了约3000对形式，涵盖了从原始意大利语到西塞罗时期拉丁语的音变模式。PILA的构建基于详尽的词源学词典与语法资料，并采用跨语言数据格式进行组织，为历史音系学研究提供了高质量、结构化的资源，显著推动了意大利语族内部语言演变的计算建模与实证分析。

当前挑战

PILA数据集面临的挑战主要体现在两个方面：在领域问题层面，其致力于解决原始意大利语到拉丁语的音变规律推断问题，但音变过程常受非语音因素干扰，如类比变化、借用和形态影响，这些不规则现象增加了模型学习纯粹音系规则的难度；在构建过程层面，数据收集依赖于公开词源资料，需对部分重建形式进行筛选与修正，以确保重建的完整性与准确性，同时，拉丁语与原始意大利语的音系表征标准化工作复杂，需协调不同来源的转写惯例，并处理音长标记、屈折形式生成等细节，以保持数据的一致性与可计算性。

常用场景

经典使用场景

在历史语言学领域，PILA数据集为研究原始意大利语向拉丁语的音变规律提供了系统化的实证基础。该数据集通过约3000对词源与派生形式的精确对应，使学者能够深入分析音位演变的具体模式，如元音弱化、辅音丛简化及异化现象。这些成对数据不仅覆盖了基本词汇，还纳入了丰富的屈折形态变体，为探索语音变化与形态结构的交互影响创造了条件。

解决学术问题

PILA数据集有效解决了历史语言学中音变规则验证与重建的难题。传统研究依赖零散的手工比对，而该数据集通过大规模标准化配对，支持计算模型自动识别音位对应规律，从而检验音变假设的系统性与一致性。其标注体系进一步区分了规则音变与类比、借用等非语音因素，为厘清语言演变的多重机制提供了关键数据支撑，推动了计算历史语言学方法论的发展。

实际应用

该数据集的实际应用体现在多个层面：其为语言演化模拟提供了训练与评估基准，支持音变预测与词源重建任务的算法开发；同时，通过与其他历史语言学数据集（如IELEX、CogNet）的兼容性链接，PILA能够扩展跨语言比较研究的链条，助力构建更宏大的印欧语系演变模型。此外，数据集的结构化设计也便于教学场景中展示具体音变案例。

数据集最近研究