five

PM-AI/germandpr-beir

收藏
Hugging Face2022-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PM-AI/germandpr-beir
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于deepset/germanDPR,用于BEIR评估框架,并已用于评估新训练的双编码器模型。数据集包含训练和测试两个部分,每个部分由queries.jsonl、corpus.jsonl和qrels文件夹中的文件组成。数据集有两种变体:原始版本和处理版本,处理版本移除了标题并简化了文本格式。数据集仅支持德语,并提供了下载脚本和直接下载链接。
提供机构:
PM-AI
原始信息汇总

数据集卡片 for germanDPR-beir

数据集概述

该数据集用于基于 deepset/germanDPRBEIR 评估。它已被用于评估新训练的 bi-encoder 模型。基准框架默认需要特定的数据集结构,该结构已在本地创建并上传至此。

数据集创建

首先,原始数据集 deepset/germanDPR 被转换为三个文件以兼容 BEIR:

  • queries.jsonl 文件包含每行的 ID 和问题。
  • corpus.jsonl 文件包含每行的 ID、标题、文本和一些元数据。
  • qrel 文件夹中的第三个文件将 queries.json 中的每个问题(通过 q_id)与 corpus.jsonl 中的相关文本/答案(通过 c_id)连接起来。

此过程已分别针对 traintest 分割进行,基于原始的 germanDPR 数据集。查询和语料库在训练和测试分割中有所不同,不仅仅是 qrels 数据!

在原始数据集中,每个问题包含一个答案段落和三个“错误”段落。在创建此自定义数据集期间,所有四个段落都被添加,但仅当它们尚未存在时(即已去重)。

需要注意的是,BEIR 将 corpus.jsonl 中的 titletext 组合成一个新字符串,这可能会产生奇怪的结果:原始的 germanDPR 数据集并不总是包含“经典”标题(即短),有时由整个句子组成,这些句子也出现在“文本”字段中。这导致非常长的段落以及重复。此外,标题和文本包含特殊格式化的内容。例如,标题中的单词通常用下划线连接:

Apple_Magic_Mouse

而文本以特殊字符开头以区分标题和子标题:

`Wirtschaft_der_Vereinigten_Staaten

== Verschuldung == Ein durchschnittlicher Haushalt (...)`

换行符也经常出现。

当然,这取决于应用程序是否会成为问题。然而,决定发布原始数据集的两个变体:

  • original 变体保持标题和文本不变,没有修改。
  • processed 变体完全删除标题并简化文本,去除特殊格式。

这两个变体的创建可以在 create_dataset.py 中查看。特别是,使用了以下参数:

  • original: SPLIT=test/train, TEXT_PREPROCESSING=False, KEEP_TITLE=True
  • processed: SPLIT=test/Train, TEXT_PREPROCESSING=True, KEEP_TITLE=False

最后需要注意的是:查询和语料库的 ID 不应匹配!在使用 BEIR 进行评估时发现,如果这些 ID 匹配,该条目的结果将完全被移除,这意味着某些结果会丢失,无法正确计算总体结果。

数据集使用

如前所述,该数据集旨在与 BEIR 基准框架一起使用。BEIR 所需的文件和数据结构只能有限地与 Huggingface Datasets 一起使用,或者需要同时定义多个数据集存储库。为了简化操作,提供了 dl_dataset.py 脚本来下载数据集并确保正确的文件和文件夹结构。

数据集大小

  • 原始 train corpus 大小、queries 大小和 qrels 大小:2400992759275

  • 原始 test corpus 大小、queries 大小和 qrels 大小:287610251025

  • 处理后的 train corpus 大小、queries 大小和 qrels 大小:2399392759275

  • 处理后的 test corpus 大小、queries 大小和 qrels 大小:287510251025

语言

该数据集仅支持德语(de, DE)。

致谢

该数据集最初由 Timo Möller, Julian Risch, Malte Pietsch, Julian Gutsch, Tom Hersperger, Luise Köhler, Iuliia Mozhina, 和 Justus Peter 在 deepset.ai 工作期间创建为 "deepset/germanDPR"。

此工作是 Technical University of Applied Sciences Wildau (TH Wildau)sense.ai.tion GmbH 之间的合作。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作