WikiDIR
收藏arXiv2024-12-17 更新2024-12-19 收录
下载链接:
https://github.com/MaiNLP/WikiDIR
下载链接
链接失效反馈官方服务:
资源简介:
WikiDIR是一个针对德语方言的跨方言检索数据集,由慕尼黑大学和慕尼黑机器学习中心创建。该数据集包含从维基百科中提取的七种德语方言的文档,共计169,105条数据。数据集的创建过程包括从维基百科文章标题中提取查询,并对文档进行手动标注,以捕捉方言间的词汇和拼写变体。WikiDIR主要用于研究低资源和高变异语言环境下的跨方言信息检索问题,旨在解决方言间的词汇差异对检索性能的影响。
WikiDIR is a cross-dialectal information retrieval dataset targeting German dialects, created by Ludwig-Maximilians-Universität München (LMU Munich) and the Munich Machine Learning Center. It contains a total of 169,105 documents across seven distinct German dialects extracted from Wikipedia. The dataset construction process includes extracting queries from Wikipedia article titles and manually annotating the documents to capture lexical and spelling variations between dialects. WikiDIR is primarily used for research on cross-dialectal information retrieval in low-resource and high-variation language environments, aiming to address the impact of lexical differences between dialects on retrieval performance.
提供机构:
马克斯·普朗克信息与语言处理中心,慕尼黑大学,德国;慕尼黑机器学习中心,慕尼黑,德国
创建时间:
2024-12-17
搜集汇总
数据集介绍

构建方式
WikiDIR数据集通过从维基百科中提取的七种德语方言构建而成,涵盖了北弗里斯兰语、萨特弗里斯兰语、低地德语、里普阿尔语、莱茵法兰克语、阿勒曼尼语和巴伐利亚语。数据集的构建过程借鉴了CLIRMatrix的方法,使用维基百科文章的标题作为查询,并将文章的前200个词作为文档。为了捕捉方言的词汇变异,研究团队还手动注释了四种方言中的实体提及,构建了包含不同拼写变体的词典,并由母语者进行校对。
特点
WikiDIR数据集的主要特点在于其专注于德语方言的词汇和拼写变异,尤其是在低资源和高变异的语言环境中。数据集包含了七种德语方言的文档,并提供了标准德语的查询,使得跨方言信息检索成为可能。此外,数据集还提供了方言变体的词典,帮助研究者量化方言变异对检索性能的影响。
使用方法
WikiDIR数据集可用于评估和改进跨方言信息检索模型。研究者可以使用该数据集来测试不同检索模型的性能,特别是那些处理低资源和高变异语言的模型。通过使用数据集中的方言词典,研究者可以进一步探索方言变异对检索性能的影响,并开发专门针对方言的检索模型。此外,数据集还可用于研究文档翻译在减少方言差异中的有效性。
背景与挑战
背景概述
WikiDIR数据集由德国慕尼黑大学MaiNLP实验室的Robert Litschko、Oliver Kraus、Verena Blaschke和Barbara Plank等人于2024年创建,旨在解决跨方言信息检索(CDIR)领域的研究空白。该数据集基于德国方言的维基百科文章,涵盖了七种德国方言,包括低地德语、北弗里斯兰语、萨特弗里斯兰语、里普阿尔语、莱茵法兰克语、阿勒曼尼语和巴伐利亚语。WikiDIR的创建旨在研究方言检索中的独特挑战,特别是由于资源有限和语言非标准化带来的高词汇变异性问题。通过该数据集,研究者展示了传统词汇方法在处理方言高词汇变异性方面的不足,并揭示了多语言编码器在极低资源环境下的迁移效果不佳,从而推动了资源节约型和方言特定检索模型的需求。
当前挑战
WikiDIR数据集面临的主要挑战包括:1) 方言检索中的高词汇变异性问题,由于方言的非标准化特性,导致词汇和拼写的多样性极大,传统的检索方法如BM25难以有效处理;2) 资源有限的问题,许多方言的数字化足迹较小,缺乏足够的训练数据,使得零样本跨语言迁移方法在方言检索中的表现不佳;3) 方言内部变异性的复杂性,不同方言及其子方言之间的差异显著,进一步增加了检索模型的难度。此外,构建过程中还面临手动标注方言变体的挑战,以确保数据集的质量和准确性。
常用场景
经典使用场景
WikiDIR数据集的经典使用场景主要集中在跨方言信息检索(CDIR)任务中。该数据集通过从维基百科中提取的七种德语方言文本,帮助研究者在低资源和高变异的语言环境中探索方言检索的挑战。研究者可以利用WikiDIR数据集评估不同检索模型在处理方言词汇变异时的表现,尤其是测试词法方法在应对方言高词汇变异时的局限性。
实际应用
WikiDIR数据集在实际应用中具有广泛的前景,尤其是在文化保护和地方知识传播领域。例如,该数据集可以用于构建针对特定方言的搜索引擎,帮助用户在低资源方言中检索文化、传统和历史信息。此外,WikiDIR还可以应用于多语言信息系统中,提升系统在处理方言变异时的鲁棒性,从而更好地服务于多语言社区。
衍生相关工作
WikiDIR数据集的发布催生了一系列相关研究工作。例如,研究者基于该数据集开发了方言特定的词典,用于量化方言变异对检索性能的影响。此外,WikiDIR还启发了对方言变异的多层次分析,包括正字法和词汇变异的研究。在模型方面,研究者探索了多阶段检索模型、大型语言模型在方言检索中的应用,以及通过持续预训练提升低资源方言检索性能的方法。
以上内容由遇见数据集搜集并总结生成



