GRDD+
收藏arXiv2025-11-06 更新2025-11-08 收录
下载链接:
https://cloud.google.com/vision
下载链接
链接失效反馈官方服务:
资源简介:
GRDD+是一个扩展的希腊方言数据集,它补充了现有的GRDD数据集,并添加了来自克里特、塞浦路斯、黑海北部和希腊北部的更多数据,同时增加了六个新品种:科西嘉希腊语、格里科(南意大利希腊语)、马尼奥特、七岛、塞萨洛尼卡语和卡塔雷武萨希腊语。结果是一个总共有6,374,939个单词和10个品种的数据集。这是迄今为止第一个具有如此多样性和规模的数据集。我们对多个语言模型进行了一系列的微调实验,以观察高质量方言数据对LLMs的影响。我们微调了三种模型架构(Llama-3-8B、Llama-3.1-8B、Krikri-8B),并将结果与前沿模型进行了比较。
GRDD+ is an expanded Greek dialect dataset that complements the existing GRDD dataset. It incorporates additional data from Crete, Cyprus, the northern Black Sea region and northern Greece, while adding six new dialect varieties: Corsican Greek, Griko (southern Italian Greek), Maniot, Seven Islands, Thessalonian Greek, and Katharevousa Greek. The resulting dataset contains a total of 6,374,939 words across 10 distinct dialect varieties. To date, this is the first dataset with such extensive diversity and scale in this domain. We conducted a series of fine-tuning experiments on multiple language models to examine the impact of high-quality dialect data on LLMs. We fine-tuned three model architectures (Llama-3-8B, Llama-3.1-8B and Krikri-8B), and compared their performance against state-of-the-art models.
提供机构:
1.克里特大学, 2.雅典大学, 3.图尔库大学
创建时间:
2025-11-06
搜集汇总
数据集介绍

构建方式
在希腊方言资源稀缺的背景下,GRDD+数据集通过多源采集策略构建而成。研究团队从博客、网站及公开文学资源中收集方言文本,涵盖民歌、诗歌、民间故事等多种体裁。针对部分濒危方言,采用光学字符识别技术从公开书籍中提取文本,并通过严格的数据清洗流程去除数字、特殊字符等噪声。该数据集在原有GRDD四个方言基础上,新增六种希腊方言变体,最终形成包含637万词规模的综合性语料库。
特点
该数据集最显著的特点是涵盖希腊方言的多样性,既包含克里特语、塞浦路斯希腊语等主要方言,也收录了格列科语、察科尼亚语等濒危变体。语料规模呈现梯度分布,卡萨雷夫萨语达151万词,而格列科-科西嘉语仅5026词,真实反映了各方言资源的现存状况。特别值得注意的是,数据集包含具有独特语言演化路径的察科尼亚语,该方言直接源于古希腊多利安方言,为语言演变研究提供了珍贵样本。
使用方法
在自然语言处理应用中,该数据集可通过滑动窗口技术构建训练样本,将原始文本分割为100词片段并生成提示-补全对。研究证明采用LoRA等参数高效微调方法,仅需3个训练周期即可显著提升模型方言生成能力。评估时建议采用多提示模板策略,通过短篇故事、对话等七类文本类型进行综合测试,并由母语者基于5分量表进行人工评估,确保生成文本的方言自然度。
背景与挑战
背景概述
现代希腊语在长期历史演变中形成了丰富的方言多样性,然而计算语言学领域长期缺乏系统性的方言资源支持。2025年,克里特大学、雅典大学和图尔库大学的研究团队联合发布了GRDD+数据集,这是对原有GRDD语料库的重要扩展。该数据集汇集了克里特、塞浦路斯、本都、北希腊等十大希腊语变体,总规模达到637万词级,成为迄今最全面的希腊方言计算语言学资源。该研究旨在解决自然语言处理模型在方言理解与生成方面的性能瓶颈,为希腊方言计算研究建立了新的基准。
当前挑战
在方言计算研究领域,希腊语变体面临着双重挑战:其一是语言模型对低资源方言的适应性问题,特别是在词性标注和方言识别任务中表现欠佳;其二是语料构建过程中遭遇的技术障碍,包括方言文本的数字化处理、光学字符识别错误校正,以及濒危方言数据稀缺等问题。这些挑战直接影响了模型生成符合方言特征的文本能力,也凸显了构建平衡方言语料库的重要性。
常用场景
经典使用场景
在希腊方言计算语言学研究中,GRDD+数据集为方言识别和词性标注任务提供了重要支撑。该数据集涵盖克里特、塞浦路斯、本都等十个希腊方言变体,通过构建包含637万词汇的大规模语料库,为研究希腊方言的语言特征分布和变异模式奠定了数据基础。研究人员利用该数据集训练的语言模型能够有效识别不同方言的语法结构和词汇特征,为希腊多方言自然语言处理系统的开发提供了核心训练资源。
解决学术问题
该数据集有效解决了希腊方言资源匮乏对计算语言学研究的制约问题。通过整合六个新增方言变体,填补了希腊方言计算资源的重要空白,为研究方言与标准现代希腊语之间的语言距离提供了量化依据。其实验结果表明,即使使用少量高质量方言数据进行微调,也能显著提升语言模型在方言生成任务上的表现,这为低资源方言的自然语言处理研究提供了可行路径。
衍生相关工作
该数据集催生了多个希腊方言计算研究的经典工作。基于GRDD+的微调实验推动了方言适配的语言模型架构研究,如使用LoRA方法在Llama系列模型上的应用探索。相关研究还衍生出希腊方言树库构建、外来词识别分析等方向,如东部克里特方言的依存句法分析工作。这些研究不仅拓展了希腊计算方言学的深度,也为其他语言的多方言自然语言处理提供了可借鉴的方法论。
以上内容由遇见数据集搜集并总结生成



