TUKE-KEMT/retrieval-skquad
收藏Hugging Face2024-06-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/TUKE-KEMT/retrieval-skquad
下载链接
链接失效反馈官方服务:
资源简介:
STS SK-QuAD Retrieval是一个独特的数据集,旨在使用MRR、MAP和NDCG等指标评估斯洛伐克语搜索性能。该数据集来源于SK-QuAD数据集,包含从搜索引擎获取的问题和答案,并经过标注。标注过程中,最佳答案被分类,以增强斯洛伐克语搜索评估的效果。数据集结构包括corpus.jsonl、queries.jsonl和qrels/test.tsv三个文件,分别包含文档、查询和查询-文档相关性评分。该数据集是斯洛伐克语搜索评估发展的重要一步,为该领域的进一步研究和开发提供了宝贵的资源。
STS SK-QuAD Retrieval是一个独特的数据集,旨在使用MRR、MAP和NDCG等指标评估斯洛伐克语搜索性能。该数据集来源于SK-QuAD数据集,包含从搜索引擎获取的问题和答案,并经过标注。标注过程中,最佳答案被分类,以增强斯洛伐克语搜索评估的效果。数据集结构包括corpus.jsonl、queries.jsonl和qrels/test.tsv三个文件,分别包含文档、查询和查询-文档相关性评分。该数据集是斯洛伐克语搜索评估发展的重要一步,为该领域的进一步研究和开发提供了宝贵的资源。
提供机构:
TUKE-KEMT
原始信息汇总
数据集概述
数据集名称
- 名称: STS SK-QuAD Retrieval
- 别名: retrieval-skquad
数据集描述
数据集总结
- 目的: 评估斯洛伐克语搜索性能,使用MRR、MAP和NDCG等指标。
- 来源: 从SK-QuAD数据集衍生,包含从搜索引擎获取的问题和答案。
- 特点: 通过标注最佳答案,增强斯洛伐克语搜索评估。
支持的任务和排行榜
- 任务: 文本检索
语言
- 语言: 斯洛伐克语
数据集结构
数据实例
- corpus.jsonl: 包含文档的唯一标识符、标题和段落文本。
- queries.jsonl: 包含查询的唯一标识符和查询文本。
- qrels/test.tsv: 包含查询ID、文档ID和评分,用于评估答案的相关性。
数据字段
- corpus.jsonl: _id, title, text
- queries.jsonl: _id, text
- qrels/test.tsv: query-id, corpus-id, score
数据分割
- 分割: 测试集
数据集创建
数据收集和规范化
- 来源: 从SK-QuAD数据集选择问题。
- 语言生产者: 来自Technical University of Košice的学生。
注释过程
- 注释者: 来自Faculty of Electrical Engineering and Informatics的学生。
- 注释方法: 使用slovakbert-skquad-mnlr模型进行语义搜索,然后根据相关性对答案进行分类。
使用数据的考虑
社会影响
- 影响: 提升斯洛伐克语搜索引擎的效率和相关性。
附加信息
数据集管理者
- 管理者: Technical University of Košice
许可信息
- 许可: cc-by-nc-sa-4.0



