PM-AI/germandpr-beir

Name: PM-AI/germandpr-beir
Creator: PM-AI
Published: 2022-11-26 13:04:33
License: 暂无描述

Hugging Face2022-11-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PM-AI/germandpr-beir

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于deepset/germanDPR，用于BEIR评估框架，并已用于评估新训练的双编码器模型。数据集包含训练和测试两个部分，每个部分由queries.jsonl、corpus.jsonl和qrels文件夹中的文件组成。数据集有两种变体：原始版本和处理版本，处理版本移除了标题并简化了文本格式。数据集仅支持德语，并提供了下载脚本和直接下载链接。

提供机构：

PM-AI

原始信息汇总

数据集卡片 for germanDPR-beir

数据集概述

该数据集用于基于 deepset/germanDPR 的 BEIR 评估。它已被用于评估新训练的 bi-encoder 模型。基准框架默认需要特定的数据集结构，该结构已在本地创建并上传至此。

数据集创建

首先，原始数据集 deepset/germanDPR 被转换为三个文件以兼容 BEIR：

queries.jsonl 文件包含每行的 ID 和问题。
corpus.jsonl 文件包含每行的 ID、标题、文本和一些元数据。
qrel 文件夹中的第三个文件将 queries.json 中的每个问题（通过 q_id）与 corpus.jsonl 中的相关文本/答案（通过 c_id）连接起来。

此过程已分别针对 train 和 test 分割进行，基于原始的 germanDPR 数据集。查询和语料库在训练和测试分割中有所不同，不仅仅是 qrels 数据！

在原始数据集中，每个问题包含一个答案段落和三个“错误”段落。在创建此自定义数据集期间，所有四个段落都被添加，但仅当它们尚未存在时（即已去重）。

需要注意的是，BEIR 将 corpus.jsonl 中的 title 和 text 组合成一个新字符串，这可能会产生奇怪的结果：原始的 germanDPR 数据集并不总是包含“经典”标题（即短），有时由整个句子组成，这些句子也出现在“文本”字段中。这导致非常长的段落以及重复。此外，标题和文本包含特殊格式化的内容。例如，标题中的单词通常用下划线连接：

Apple_Magic_Mouse

而文本以特殊字符开头以区分标题和子标题：

`Wirtschaft_der_Vereinigten_Staaten

== Verschuldung == Ein durchschnittlicher Haushalt (...)`

换行符也经常出现。

当然，这取决于应用程序是否会成为问题。然而，决定发布原始数据集的两个变体：

original 变体保持标题和文本不变，没有修改。
processed 变体完全删除标题并简化文本，去除特殊格式。

这两个变体的创建可以在 create_dataset.py 中查看。特别是，使用了以下参数：

original: SPLIT=test/train, TEXT_PREPROCESSING=False, KEEP_TITLE=True
processed: SPLIT=test/Train, TEXT_PREPROCESSING=True, KEEP_TITLE=False

最后需要注意的是：查询和语料库的 ID 不应匹配！在使用 BEIR 进行评估时发现，如果这些 ID 匹配，该条目的结果将完全被移除，这意味着某些结果会丢失，无法正确计算总体结果。

数据集使用

如前所述，该数据集旨在与 BEIR 基准框架一起使用。BEIR 所需的文件和数据结构只能有限地与 Huggingface Datasets 一起使用，或者需要同时定义多个数据集存储库。为了简化操作，提供了 dl_dataset.py 脚本来下载数据集并确保正确的文件和文件夹结构。

数据集大小

原始 train corpus 大小、queries 大小和 qrels 大小：24009、9275 和 9275
原始 test corpus 大小、queries 大小和 qrels 大小：2876、1025 和 1025
处理后的 train corpus 大小、queries 大小和 qrels 大小：23993、9275 和 9275
处理后的 test corpus 大小、queries 大小和 qrels 大小：2875、1025 和 1025

语言

该数据集仅支持德语（de, DE）。

致谢

该数据集最初由 Timo Möller, Julian Risch, Malte Pietsch, Julian Gutsch, Tom Hersperger, Luise Köhler, Iuliia Mozhina, 和 Justus Peter 在 deepset.ai 工作期间创建为 "deepset/germanDPR"。

此工作是 Technical University of Applied Sciences Wildau (TH Wildau) 和 sense.ai.tion GmbH 之间的合作。

5,000+

优质数据集

54 个

任务类型

进入经典数据集