BEIR-PL
收藏arXiv2024-05-16 更新2024-06-21 收录
下载链接:
https://huggingface.co/clarin-knext
下载链接
链接失效反馈官方服务:
资源简介:
BEIR-PL是一个专为波兰语设计的大型异构信息检索基准数据集,由弗罗茨瓦夫理工大学创建。该数据集包含13个子数据集,旨在促进现代波兰语模型的开发、训练和评估。数据集内容涵盖多种信息检索任务,如问题回答和实体链接,数据来源于多个开放资源。创建过程中,研究团队使用机器翻译技术将原始数据集翻译成波兰语,并进行了细致的评估和比较。BEIR-PL数据集的应用领域广泛,特别适用于零样本学习方法,为波兰语自然语言处理领域提供了重要的资源和基准。
BEIR-PL is a large-scale heterogeneous information retrieval benchmark dataset tailored specifically for Polish, created by Wrocław University of Science and Technology. It comprises 13 sub-datasets, with the goal of facilitating the development, training and evaluation of modern Polish language models. The dataset covers a diverse range of information retrieval tasks including question answering and entity linking, with data sourced from multiple open resources. During its creation, the research team utilized machine translation technologies to translate the original datasets into Polish, and conducted meticulous evaluation and comparative analysis. BEIR-PL has a wide range of application scenarios, and is particularly well-suited for zero-shot learning methods, providing essential resources and benchmarks for the field of Polish natural language processing.
提供机构:
弗罗茨瓦夫理工大学
创建时间:
2023-05-31
搜集汇总
数据集介绍

构建方式
BEIR-PL基准数据集通过将原始BEIR基准中的全部13个英文信息检索数据集经由谷歌翻译服务自动翻译为波兰语而构建。翻译过程涵盖了查询、文档语料库及相关性判断(qrels),所有数据均保留原始JSONL与TSV格式,以确保与多语言BEIR基准的兼容性。为验证翻译质量,研究团队随机抽取了100个查询与段落,分别由专业语言学家进行严格评估和研究人员进行语义评估,同时利用多语言嵌入模型LaBSE自动计算源文本与译文间的语义相似度,结果证实大多数翻译在信息检索任务中语义充分且可用。
特点
BEIR-PL作为波兰语零样本信息检索的综合性基准,覆盖了13个异构数据集,涉及问答、医学、金融、科学论证等多领域,查询与文档长度、风格及领域分布广泛。该基准特别针对波兰语这一形态丰富、屈折变化复杂的低资源语言设计,填补了波兰语在MS MARCO和Mr. TyDi等大型多语言检索资源中的空白。其特色在于支持零样本评估,允许研究者直接对比不同检索模型在波兰语上的跨语言迁移能力,并已纳入MTEB基准,便于与英语及其他语言结果进行横向比较。
使用方法
BEIR-PL的使用遵循标准信息检索流程:研究者可加载翻译后的查询与文档语料,采用BM25等词法匹配方法作为基线,或利用提供的预训练波兰语神经网络模型(如基于HerBERT的密集检索器、基于plT5的重排序器及ColBERT后期交互模型)进行稠密检索与重排序。数据集以JSONL和TSV格式存储,兼容Hugging Face平台,可通过链接直接下载。评估时推荐采用NDCG@10、MRR@10和Recall@100等指标,并建议在分析结果时关注各子数据集的独立表现,而非仅依赖整体平均分,以深入理解模型在不同任务特性下的优劣。
背景与挑战
背景概述
信息检索(IR)领域长期被英语语料库主导,而波兰语等资源匮乏语言在神经检索模型的发展中面临显著滞后。2023年,弗罗茨瓦夫理工大学的Konrad Wojtasik及其团队构建了BEIR-PL基准数据集,旨在填补波兰语零样本信息检索的空白。该数据集通过机器翻译将原版BEIR中13个异构IR数据集(涵盖MS MARCO、TREC-COVID、NQ等)转化为波兰语,并公开了首个波兰语预训练IR模型。BEIR-PL已被纳入MTEB基准,成为评估波兰语稠密检索与重排序模型的重要参照,推动了该语言在自然语言处理领域的跨语言研究。
当前挑战
BEIR-PL面临的核心挑战源于波兰语的高度屈折形态——复杂的词形变化和专有名词变格导致BM25等词汇匹配算法性能显著低于英语,其Recall@100在多数子集上下降10%以上。构建过程中,机器翻译虽成本高效,但命名实体和术语翻译的语义偏差难以避免,人工抽查显示严格准确率仅约70%。此外,零样本场景下无监督稠密检索模型(如ICT)在复杂问答数据集(如NQ、HotpotQA)上表现不佳,暴露出对深层语义理解的不足。跨域泛化亦成难题,例如重排序模型在论证检索任务(ArguAna)中甚至弱于BM25基线,凸显了任务特异性与模型适配之间的张力。
常用场景
经典使用场景
在自然语言处理领域,信息检索是支撑问答系统、实体链接与文本摘要等任务的核心技术。BEIR-PL 作为面向波兰语的零样本信息检索基准,其经典使用场景在于评估和对比不同检索模型在缺乏目标语言训练数据时的跨语言迁移能力。研究者利用该基准对稠密检索模型、词汇匹配模型(如 BM25)以及重排序模型进行系统性评测,尤其关注模型在多样化领域(如医学、法律、常识问答)上的泛化表现。通过统一的评估协议与覆盖 13 个数据集的异构语料,BEIR-PL 为波兰语信息检索研究提供了标准化的实验平台,使得不同架构的模型能够在公平条件下进行性能比较。
解决学术问题
BEIR-PL 解决了波兰语信息检索研究中长期缺乏大规模、多样化基准数据集的学术困境。此前,波兰语在主流多语言基准(如 Mr. TyDi、mMARCO)中几乎缺席,严重制约了稠密检索模型在该语言上的发展。该数据集通过机器翻译将英文 BEIR 基准迁移至波兰语,系统性地填补了这一资源空白。它使研究者得以量化词汇匹配与神经模型在屈折语上的性能差距,揭示波兰语复杂的形态结构对检索效果的显著影响。更重要的是,BEIR-PL 推动了零样本跨语言检索的实证研究,验证了多语言预训练模型在低资源语言上的迁移潜力,为未来构建更鲁棒的多语言信息检索系统奠定了方法论基础。
衍生相关工作
BEIR-PL 的发布催生了一系列重要的衍生工作。该基准已被纳入 MTEB 大规模文本嵌入基准,成为波兰语嵌入模型评估的组成部分。基于 BEIR-PL 微调的 HerBERT 与 plT5 重排序器作为开源基线模型发布,为后续研究提供了可直接复用的起点。此外,该工作验证了 Inverse Cloze Task 等无监督预训练方法在波兰语上的效果,启发了后续针对屈折语的检索增强预训练研究。ColBERT 在医学数据集上的优异表现,也推动了晚期交互模型在专业领域检索中的应用探索。BEIR-PL 还直接支撑了 PolEval 2022 段落检索竞赛,催生了混合检索加生成式重排序等多种创新方案,进一步丰富了波兰语信息检索的技术生态。
以上内容由遇见数据集搜集并总结生成



