mteb/GerDaLIRSmall

Name: mteb/GerDaLIRSmall
Creator: mteb
Published: 2025-05-04 16:09:30
License: 暂无描述

Hugging Face2025-05-04 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/mteb/GerDaLIRSmall

下载链接

链接失效反馈

官方服务：

资源简介：

GerDaLIRSmall数据集是一个用于文本检索任务的德语数据集，主要包含法律文档、段落和相关标签。数据集分为三个部分：corpus（语料库）、queries（查询）和default（默认配置）。corpus部分包含法律文档，queries部分包含与corpus中文档相关的段落，default部分包含查询与文档之间的相关性评分。该数据集特别适用于评估法律文档检索系统的性能。

提供机构：

mteb

原始信息汇总

数据集概述

基本信息

语言: 德语
多语言性: 单语
任务类别: 文本检索
任务ID: 文档检索
标签: 文本检索

数据集配置

默认配置:
- 特征:
  - query-id: 字符串类型
  - corpus-id: 字符串类型
  - score: 浮点数类型
- 分割:
  - test: 14320个样本
语料库配置:
- 特征:
  - _id: 字符串类型
  - title: 字符串类型
  - text: 字符串类型
- 分割:
  - corpus: 9969个样本
查询配置:
- 特征:
  - _id: 字符串类型
  - text: 字符串类型
- 分割:
  - queries: 12234个样本

数据文件

默认配置:
- test: qrels/test.jsonl
语料库配置:
- corpus: corpus.jsonl
查询配置:
- queries: queries.jsonl

数据集内容

原始链接: https://github.com/lavis-nlp/GerDaLIR
数据集组成: 包含德语文档、段落和相关性标签
语料库集: 包含一组法律文档，与原始数据集不同，仅选择与查询集中的查询相对应的文档以创建用于评估的小型语料库
查询集: 包含指向语料库集中一个或多个文档的段落

5,000+

优质数据集

54 个

任务类型

进入经典数据集