five

DIALEMMA

收藏
arXiv2025-09-22 更新2025-09-24 收录
下载链接:
https://github.com/mainlp/dialemma
下载链接
链接失效反馈
官方服务:
资源简介:
DIALEMMA是一个用于从单语语料库中创建方言变体词典的标注框架,该框架仅需要每种语言变体访问一个单语语料库。通过将DIALEMMA应用于巴伐利亚语维基百科,我们提取并手动标注了10k个德语单词,得到了11k个直接的德语-巴伐利亚语翻译对和7k个带有屈折差异的对。该数据集旨在分析LLMs在处理拼写变化方面的能力,并评估它们在翻译巴伐利亚语单词方面的表现。

DIALEMMA is an annotation framework for constructing dialect variant lexicons from monolingual corpora, which only requires access to one monolingual corpus per language variety. By applying DIALEMMA to the Bavarian Wikipedia, we extracted and manually annotated 10,000 German words, resulting in 11,000 direct German-Bavarian translation pairs and 7,000 pairs with inflectional differences. This dataset aims to analyze the ability of Large Language Models (LLMs) to handle spelling variations, and evaluate their performance in translating Bavarian words.
提供机构:
慕尼黑大学,德国
创建时间:
2025-09-22
搜集汇总
数据集介绍
main_image_url
构建方式
DIALEMMA数据集采用创新的单语语料库标注框架构建,通过利用标准德语与巴伐利亚方言之间的词汇相似性实现跨方言词典的自动提取。该框架首先对标准德语维基百科进行词性标注和词形还原,提取高频词条作为基准词汇表;随后从巴伐利亚方言维基百科中提取全部词汇,过滤掉与标准德语完全重合的词汇后,基于莱文斯坦距离为每个德语词条匹配最相似的10个方言候选词。最终由母语标注者根据词对关系进行三类标注:直接翻译、屈折变体或无关词汇,形成包含10万对人工标注词条的大规模方言变异词典。
特点
该数据集的核心特征体现在其系统性地捕捉了非标准化方言的拼写变异现象。数据集中包含11,044对直接翻译词条和7,070对屈折变体词条,平均每个德语词条对应2.61种拼写变异形式。词对间的平均莱文斯坦距离为2.07±1.07,直观反映了方言与标准语之间的拼写差异程度。数据集覆盖名词、形容词、副词等15种词性类别,其中名词类词条占比最高且翻译难度最低。特别值得注意的是,该数据集通过方言词汇的实际使用例句提供了上下文信息,为研究语境对方言理解的影响提供了独特视角。
使用方法
该数据集主要支持两大自然语言处理任务的评估:方言词对关系判断与方言到标准语的词汇翻译。在关系判断任务中,模型需将给定的德-巴词对分类为直接翻译、屈折变体或无关词汇,采用宏平均F1分数作为评估指标以避免类别不平衡的影响。翻译任务则要求模型将巴伐利亚方言词准确转换为标准德语对应词,通过词汇级翻译准确率进行量化评估。研究显示,模型性能受到提示词设计、上下文信息注入以及词对拼写差异度的显著影响,较大规模的模型在两项任务中均展现出更优的表现,但在区分直接翻译与屈折变体时仍存在明显挑战。
背景与挑战
背景概述
DIALEMMA数据集由慕尼黑大学MaiNLP实验室于2025年创建,旨在解决非标准化方言在自然语言处理中的拼写变异问题。该数据集以巴伐利亚方言为案例,通过创新标注框架从单语语料库构建方言变异词典,包含10万个经过人工标注的德语-巴伐利亚语词对。其核心研究在于探索大语言模型对缺乏标准正字法的方言词汇的理解能力,特别是对词形相似但存在拼写差异的方言术语的识别与翻译。这一工作填补了方言NLP研究中对词汇层面拼写变异系统性评估的空白,为低资源语言变体的计算处理提供了重要基准。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决方言拼写变异对大语言模型处理的干扰,包括模型对名词、形容词等不同词性方言词汇的识别差异,以及区分直接翻译与屈折变体的困难;在构建过程中,挑战主要体现在从单语语料自动提取高相似度词对时,需通过莱文斯坦距离筛选候选对并保持标注一致性,同时克服方言缺乏形态句法分析器的技术限制。此外,数据标注需要母语者精细判断三类关系(直接翻译、屈折变体、无关词汇),确保词典构建的准确性与覆盖面。
常用场景
经典使用场景
在方言自然语言处理研究中,DIALEMMA数据集被广泛应用于评估大型语言模型对非标准化方言词汇的识别与翻译能力。该数据集通过构建德语与巴伐利亚方言之间的词汇对映关系,为研究语言模型在拼写变异场景下的表现提供了标准化的测试基准。其经典使用场景包括系统分析模型在不同词性类别上的方言理解能力,以及探索模型在识别直接翻译与屈折变体时的判别边界。
解决学术问题
该数据集有效解决了方言计算语言学中的核心挑战,即缺乏大规模标注的方言-标准语词汇对照资源。通过构建包含11,044个直接翻译对和7,070个屈折变体对的标注语料,DIALEMMA为量化语言模型处理正字法变异的能力提供了实证基础。其意义在于首次实现了从单语语料自动构建方言词典的方法论突破,并为研究语言模型在低资源方言上的泛化性能建立了可复现的评估框架。
衍生相关工作
该数据集催生了多个方言计算研究方向的创新工作。在方法层面,Artemova等人基于类似框架实现了低资源双语词典归纳;Kuparinen等人则将其扩展为多语言方言归一化评估基准。在技术演进上,Scherrer提出的字符级对齐方法与Her等人研究的神经机器翻译架构,均利用DIALEMMA验证了方言处理模型的改进效果。后续研究进一步将该数据集的构建范式应用于瑞士德语、阿尔萨斯语等更多方言体系,形成了方言计算研究的标准化工作流程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作