GLeMM
收藏arXiv2026-04-14 更新2026-04-17 收录
下载链接:
https://src.koda.cnrs.fr/nabil.hathout.1/glemm
下载链接
链接失效反馈官方服务:
资源简介:
GLeMM是由法国国家科学研究中心联合多所高校开发的大规模多语言形态学数据集,覆盖德语、英语等7种欧洲语言。该数据集基于Wiktionary词条构建,采用全自动化流程标注词形变化特征,并包含语义描述子集,总数据量未明确但强调其规模优势。通过解析词典释义中的形态派生关系,结合FAPinette算法验证词对关联性,最终形成可支持形态学理论验证的计算资源。该数据集主要应用于派生形态学研究领域,旨在解决传统方法依赖直觉、数据量不足导致的结论泛化性差等问题,为词法结构分析和跨语言比较提供量化基础。
GLeMM is a large-scale multilingual morphological dataset developed by the Centre National de la Recherche Scientifique (CNRS) in collaboration with multiple universities, covering 7 European languages including German and English. Constructed based on Wiktionary entries, this dataset adopts a fully automated pipeline to annotate inflectional features and includes a semantic description subset. Although the total size of the dataset is unspecified, its scale advantage is emphasized. By analyzing morphological derivation relationships in dictionary definitions and verifying the relevance of word pairs with the FAPinette algorithm, it ultimately forms a computational resource that supports the validation of morphological theories. This dataset is primarily applied in the field of derivational morphology research, aiming to address issues including poor generalization of conclusions caused by traditional methods' reliance on intuition and insufficient data volume, and providing a quantitative basis for lexical structural analysis and cross-language comparison.
提供机构:
法国国家科学研究中心·图卢兹第二大学; 法国国家科学研究中心·波尔多蒙田大学; 法国国家科学研究中心·洛林大学
创建时间:
2026-04-14
原始信息汇总
GLeMM 数据集概述
数据集基本信息
- 数据集名称: GLeMM Lexicons
- 项目ID: 3969
- 创建日期: 2025年8月25日
- 许可证: Creative Commons Attribution 4.0 International
- 项目仓库地址: https://src.koda.cnrs.fr/nabil.hathout.1/glemm
数据集描述
GLeMM 是一个多语言派生形态学资源。
数据集版本与内容
GLeMM_1.3
- 提供语言词典: 英语、法语、意大利语。
- 数据基础: 基于 GLAWI、GLAW-IT 和 ENGLAWI 词典。
- 附加信息: 为法语和意大利语提供形态学家族。
GLeMM_1.4
- 提供语言词典: 英语、法语、意大利语。
- 主要变更: 相对于 GLeMM_1.3,使用 Stanza 来解析英语和意大利语的定义。
GLeMM_2.0
- 提供语言词典: 德语、英语、法语、意大利语、波兰语、俄语、西班牙语。
- 数据基础: 除了 GLAWI、GLAW-IT 和 ENGLAWI,还使用了从 Kaikki 词典和 MorphyNet 词典中提取的数据。
引用信息
如果在学术研究中使用 GLeMM 词典,请引用:
Nabil Hathout, Basilio Calderone, Fiammetta Namer, Franck Sajous (2025), GLeMM, a derivational resource that gives you more, ISMo-2025 , Lille.
并链接到项目仓库:
https://src.koda.cnrs.fr/nabil.hathout.1/glemm
搜集汇总
数据集介绍

构建方式
GLeMM数据集的构建依托于维基词典(Wiktionary)的词条与定义,通过形式类比(formal analogy)方法自动识别形态相关的词对。该方法首先从维基词典的释义部分和形态相关章节中提取候选词对,并整合MorphyNet等现有资源;随后计算每对词的类比签名(analogy signature),筛选出具有足够频率的签名以保留可能具有形态规律的词对;接着通过交替模式(alternation pattern)分析,识别描述词对间形式差异的正则表达式,最终选择最具连接性的模式作为形态关系的描述。整个过程实现了跨七种欧洲语言的全自动化处理,确保了资源的一致性与可扩展性。
特点
GLeMM作为形态学领域的大规模多语言数据集,其显著特点体现在多个维度。该数据集覆盖了德语、英语、西班牙语、法语、意大利语、波兰语和俄语七种欧洲语言,提供了统一的自动化构建框架。数据集中每个词对均标注了形态特征,包括词性、词干及形态模式(如词缀的正则表达式),并针对相当一部分词对提供了基于维基词典定义的语义描述。此外,GLeMM不仅包含直接的派生关系,还涵盖了间接派生、复合构词乃至逆向构词等多样化的形态现象,为深入研究形态系统的复杂性与跨语言比较提供了丰富的实证基础。
使用方法
GLeMM数据集适用于形态学的实验研究与数据驱动分析,为学者探索形式与意义在构词中的互动机制提供了有力工具。研究者可利用其结构化的词对信息进行大规模语料研究,例如通过分析定义模板与交替模式的关联来识别词缀竞争现象,或利用语义描述与形式规律的对比来检测逆向构词等非典型形态过程。该资源支持跨语言比较研究,使得在同一框架下考察不同语言家族的形态特性成为可能。此外,GLeMM还可用于开发和测试计算形态学方法,如形态关系预测或形态范式填充任务,推动形态学理论与计算模型的协同发展。
背景与挑战
背景概述
GLeMM(Gros Lexique Morphologique Multilingue)是一个专为形态学实验与数据驱动描述设计的大规模多语言派生形态资源,由Nabil Hathout、Basilio Calderone、Fiammetta Namer和Franck Sajous等研究人员于2024年启动构建,并于2026年正式发布。该数据集旨在解决派生形态学中长期依赖直觉与有限数据观察的研究局限,其核心研究问题聚焦于探索词形与意义在构词中的相互作用机制,以及跨语言派生结构的变异规律。通过覆盖德语、英语、西班牙语、法语、意大利语、波兰语和俄语七种欧洲语言,GLeMM以全自动方式从Wiktionary中提取并标注形态特征与语义描述,为形态学理论验证与计算方法开发提供了前所未有的实证基础,显著推动了派生形态学从定性分析向定量研究的范式转变。
当前挑战
GLeMM面临的挑战主要体现在两个方面:在领域问题层面,该数据集需解决派生形态学中形式与意义关系的高度复杂性,例如如何准确识别并标注跨语言的词缀竞争、回构构词、多义性及异干交替等非典型现象,这些问题的自动化处理对计算模型的泛化能力提出了严峻考验。在构建过程层面,挑战源于Wiktionary数据的异构性与标记缺失,需设计如FAPinette的类比签名方法从非结构化定义中可靠提取形态关联;同时,多语言资源覆盖不均导致数据规模与语义注释完整性存在显著差异,例如意大利语因初始资源有限而注释比例较低,影响了跨语言比较的均衡性。
常用场景
经典使用场景
在形态学研究中,GLeMM数据集为词形变化与语义关系的探索提供了经典应用场景。该数据集通过自动化方法从多语言Wiktionary条目中提取派生关系,覆盖了七种欧洲语言,包括德语、英语、西班牙语、法语、意大利语、波兰语和俄语。其核心应用在于支持大规模、数据驱动的形态学分析,使研究者能够系统考察词形与意义之间的对应规律。例如,通过分析派生定义中的形式类比,研究者可以识别词族内的形态关联,进而揭示不同语言中派生机制的共性与差异。
解决学术问题
GLeMM数据集有效解决了派生形态学领域长期存在的若干学术难题。传统研究多依赖直觉或有限数据,难以复现与推广。该数据集通过大规模、自动化的资源构建,为形式与意义在构词中的角色等基础问题提供了实证基础。它使得研究者能够量化分析词缀竞争、回构构词、多义性等复杂现象,并支持跨语言比较研究。此外,数据集中的语义标注为探索形态语义关系提供了直接依据,有助于推动派生形态学的理论建模与计算方法的实验验证。
衍生相关工作
GLeMM数据集衍生了一系列相关经典工作,尤其在多语言形态资源构建与计算方法上影响显著。其采用的FAPinette方法基于形式类比识别形态关系,为自动化形态分析提供了新思路。该数据集与MorphyNet、UniMorph等现有资源形成互补,共同推动了UDer等多语言派生数据库的发展。在学术研究中,GLeMM支持了对词缀竞争、派生对称性、三角结构等形态现象的实证探索,相关成果见于形态学会议及期刊。此外,数据集为形态范式填充、词形重新生成等计算任务提供了基准数据,促进了形态学与计算语言学的交叉融合。
以上内容由遇见数据集搜集并总结生成



