five

FreshStack_mteb

收藏
Hugging Face2025-08-18 更新2025-08-19 收录
下载链接:
https://huggingface.co/datasets/embedding-benchmark/FreshStack_mteb
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于文本检索任务的数据集,包含查询文本、文档文本和相关性得分。数据集分为三个配置:default、corpus和queries。default配置包含查询ID、文档ID和相关性得分,corpus配置包含文档ID和文档文本,queries配置包含查询ID和查询文本。提供的数据文件分别为测试集、文档集和查询集。

This is a dataset for text retrieval tasks, containing query texts, document texts and relevance scores. The dataset is split into three configurations: default, corpus, and queries. The default configuration includes query IDs, document IDs and relevance scores; the corpus configuration includes document IDs and document texts; and the queries configuration includes query IDs and query texts. The provided data files are the test set, document set and query set respectively.
创建时间:
2025-08-11
原始信息汇总

FreshStack_mteb 数据集概述

数据集基本信息

  • 任务类别:文本检索
  • 任务ID:文档检索
  • 标签:文本检索

数据集配置

default配置

  • 特征
    • query-id(字符串类型)
    • corpus-id(字符串类型)
    • score(浮点64类型)
  • 数据文件
    • 测试集:relevance.jsonl

corpus配置

  • 特征
    • id(字符串类型)
    • text(字符串类型)
  • 数据文件
    • 语料库集:corpus.jsonl

queries配置

  • 特征
    • id(字符串类型)
    • text(字符串类型)
  • 数据文件
    • 查询集:queries.jsonl

使用方式

python import datasets

下载数据集

queries = datasets.load_dataset("embedding-benchmark/MBPP", "queries") documents = datasets.load_dataset("embedding-benchmark/MBPP", "corpus") pair_labels = datasets.load_dataset("embedding-benchmark/MBPP", "default")

搜集汇总
数据集介绍
main_image_url
构建方式
FreshStack_mteb数据集专为文本检索任务设计,其构建过程遵循严谨的学术标准。该数据集通过提取高质量的查询语句和文档内容,并采用人工标注与自动化流程相结合的方式,确保数据的一致性与准确性。每个查询与文档对均经过相关性评分,评分数据以JSONL格式存储,便于后续处理与分析。
特点
该数据集具备多配置结构,包括查询、文档库和相关性标签三个独立模块,支持灵活的检索实验需求。其文档内容覆盖广泛的技术领域,查询设计注重实际应用场景,相关性评分采用连续数值形式,提供更细致的检索性能评估。数据格式兼容主流机器学习框架,便于集成与扩展。
使用方法
研究人员可通过Hugging Face的datasets库直接加载数据集的不同配置模块,分别获取查询集、文档库和相关性标签。查询与文档的嵌入向量可借助预训练模型生成,进而计算相似度得分并与标注分数进行对比分析。该数据集适用于评估检索模型的排序性能及相关性判断能力。
背景与挑战
背景概述
FreshStack_mteb数据集作为文本检索领域的重要基准,由embedding-benchmark研究团队构建,专注于评估文档检索系统的性能。该数据集通过精心设计的查询-文档对和相关性评分,旨在解决信息检索中语义匹配的核心问题,推动自然语言处理技术在真实场景中的应用。其构建体现了对检索模型泛化能力和准确性的高标准要求,为后续研究提供了可靠的评估框架,显著促进了检索算法的发展与优化。
当前挑战
该数据集主要应对文档检索中语义鸿沟的挑战,即查询与文档间深层语义关联的准确捕捉,这对模型的上下文理解和推理能力提出极高要求。构建过程中,挑战集中于大规模语料的质量控制与标注一致性,确保查询-文档对的覆盖度和相关性评分的客观性,同时需平衡数据多样性与噪声干扰,以维持评估的严谨性和实用性。
常用场景
经典使用场景
在信息检索领域,FreshStack_mteb数据集为评估文本检索模型的性能提供了标准化测试环境。研究者利用其结构化的问题-文档对和相关性评分,系统性地检验模型在真实场景下的检索准确率与排序质量,成为衡量检索算法优劣的重要基准。
实际应用
基于FreshStack_mteb训练的检索模型已广泛应用于智能客服系统、企业知识库管理和学术文献推荐平台。其高精度的语义匹配能力显著提升了垂直领域的信息定位效率,为金融、医疗等专业场景提供了快速准确的知识服务支持。
衍生相关工作
该数据集催生了诸如DPR、ANCE等经典稠密检索架构的演进,并促进了Contriever、SPLADE等新一代检索模型的创新。其在MTEB基准测试中的广泛应用,进一步推动了检索-重排序 pipeline 优化和跨模态检索技术的融合发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作