five

TUKE-KEMT/retrieval-skquad

收藏
Hugging Face2024-06-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/TUKE-KEMT/retrieval-skquad
下载链接
链接失效反馈
官方服务:
资源简介:
STS SK-QuAD Retrieval是一个独特的数据集,旨在使用MRR、MAP和NDCG等指标评估斯洛伐克语搜索性能。该数据集来源于SK-QuAD数据集,包含从搜索引擎获取的问题和答案,并经过标注。标注过程中,最佳答案被分类,以增强斯洛伐克语搜索评估的效果。数据集结构包括corpus.jsonl、queries.jsonl和qrels/test.tsv三个文件,分别包含文档、查询和查询-文档相关性评分。该数据集是斯洛伐克语搜索评估发展的重要一步,为该领域的进一步研究和开发提供了宝贵的资源。

STS SK-QuAD Retrieval是一个独特的数据集,旨在使用MRR、MAP和NDCG等指标评估斯洛伐克语搜索性能。该数据集来源于SK-QuAD数据集,包含从搜索引擎获取的问题和答案,并经过标注。标注过程中,最佳答案被分类,以增强斯洛伐克语搜索评估的效果。数据集结构包括corpus.jsonl、queries.jsonl和qrels/test.tsv三个文件,分别包含文档、查询和查询-文档相关性评分。该数据集是斯洛伐克语搜索评估发展的重要一步,为该领域的进一步研究和开发提供了宝贵的资源。
提供机构:
TUKE-KEMT
原始信息汇总

数据集概述

数据集名称

  • 名称: STS SK-QuAD Retrieval
  • 别名: retrieval-skquad

数据集描述

数据集总结

  • 目的: 评估斯洛伐克语搜索性能,使用MRR、MAP和NDCG等指标。
  • 来源: 从SK-QuAD数据集衍生,包含从搜索引擎获取的问题和答案。
  • 特点: 通过标注最佳答案,增强斯洛伐克语搜索评估。

支持的任务和排行榜

  • 任务: 文本检索

语言

  • 语言: 斯洛伐克语

数据集结构

数据实例

  • corpus.jsonl: 包含文档的唯一标识符、标题和段落文本。
  • queries.jsonl: 包含查询的唯一标识符和查询文本。
  • qrels/test.tsv: 包含查询ID、文档ID和评分,用于评估答案的相关性。

数据字段

  • corpus.jsonl: _id, title, text
  • queries.jsonl: _id, text
  • qrels/test.tsv: query-id, corpus-id, score

数据分割

  • 分割: 测试集

数据集创建

数据收集和规范化

  • 来源: 从SK-QuAD数据集选择问题。
  • 语言生产者: 来自Technical University of Košice的学生。

注释过程

  • 注释者: 来自Faculty of Electrical Engineering and Informatics的学生。
  • 注释方法: 使用slovakbert-skquad-mnlr模型进行语义搜索,然后根据相关性对答案进行分类。

使用数据的考虑

社会影响

  • 影响: 提升斯洛伐克语搜索引擎的效率和相关性。

附加信息

数据集管理者

  • 管理者: Technical University of Košice

许可信息

  • 许可: cc-by-nc-sa-4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作