PM-AI/germandpr-beir
收藏数据集卡片 for germanDPR-beir
数据集概述
该数据集用于基于 deepset/germanDPR 的 BEIR 评估。它已被用于评估新训练的 bi-encoder 模型。基准框架默认需要特定的数据集结构,该结构已在本地创建并上传至此。
数据集创建
首先,原始数据集 deepset/germanDPR 被转换为三个文件以兼容 BEIR:
queries.jsonl文件包含每行的 ID 和问题。corpus.jsonl文件包含每行的 ID、标题、文本和一些元数据。qrel文件夹中的第三个文件将queries.json中的每个问题(通过q_id)与corpus.jsonl中的相关文本/答案(通过c_id)连接起来。
此过程已分别针对 train 和 test 分割进行,基于原始的 germanDPR 数据集。查询和语料库在训练和测试分割中有所不同,不仅仅是 qrels 数据!
在原始数据集中,每个问题包含一个答案段落和三个“错误”段落。在创建此自定义数据集期间,所有四个段落都被添加,但仅当它们尚未存在时(即已去重)。
需要注意的是,BEIR 将 corpus.jsonl 中的 title 和 text 组合成一个新字符串,这可能会产生奇怪的结果:原始的 germanDPR 数据集并不总是包含“经典”标题(即短),有时由整个句子组成,这些句子也出现在“文本”字段中。这导致非常长的段落以及重复。此外,标题和文本包含特殊格式化的内容。例如,标题中的单词通常用下划线连接:
Apple_Magic_Mouse
而文本以特殊字符开头以区分标题和子标题:
`Wirtschaft_der_Vereinigten_Staaten
== Verschuldung == Ein durchschnittlicher Haushalt (...)`
换行符也经常出现。
当然,这取决于应用程序是否会成为问题。然而,决定发布原始数据集的两个变体:
original变体保持标题和文本不变,没有修改。processed变体完全删除标题并简化文本,去除特殊格式。
这两个变体的创建可以在 create_dataset.py 中查看。特别是,使用了以下参数:
original:SPLIT=test/train, TEXT_PREPROCESSING=False, KEEP_TITLE=Trueprocessed:SPLIT=test/Train, TEXT_PREPROCESSING=True, KEEP_TITLE=False
最后需要注意的是:查询和语料库的 ID 不应匹配!在使用 BEIR 进行评估时发现,如果这些 ID 匹配,该条目的结果将完全被移除,这意味着某些结果会丢失,无法正确计算总体结果。
数据集使用
如前所述,该数据集旨在与 BEIR 基准框架一起使用。BEIR 所需的文件和数据结构只能有限地与 Huggingface Datasets 一起使用,或者需要同时定义多个数据集存储库。为了简化操作,提供了 dl_dataset.py 脚本来下载数据集并确保正确的文件和文件夹结构。
数据集大小
-
原始 train
corpus大小、queries大小和qrels大小:24009、9275和9275 -
原始 test
corpus大小、queries大小和qrels大小:2876、1025和1025 -
处理后的 train
corpus大小、queries大小和qrels大小:23993、9275和9275 -
处理后的 test
corpus大小、queries大小和qrels大小:2875、1025和1025
语言
该数据集仅支持德语(de, DE)。
致谢
该数据集最初由 Timo Möller, Julian Risch, Malte Pietsch, Julian Gutsch, Tom Hersperger, Luise Köhler, Iuliia Mozhina, 和 Justus Peter 在 deepset.ai 工作期间创建为 "deepset/germanDPR"。
此工作是 Technical University of Applied Sciences Wildau (TH Wildau) 和 sense.ai.tion GmbH 之间的合作。



