five

FreshStack

收藏
arXiv2025-04-18 更新2025-04-19 收录
下载链接:
https://fresh-stack.github.io
下载链接
链接失效反馈
官方服务:
资源简介:
FreshStack是一个自动构建信息检索(IR)评估基准的框架,它从社区提出的问题和答案中收集数据,并通过GitHub上的代码和技术文档自动收集语料库。该数据集包含五个针对快速增长、最新和利基主题构建的数据集,旨在为评估IR和RAG系统提供具有挑战性的真实基准。
提供机构:
滑铁卢大学
创建时间:
2025-04-18
搜集汇总
数据集介绍
main_image_url
构建方式
FreshStack数据集的构建过程体现了高度自动化和模块化的设计理念。该框架通过三个核心步骤实现:首先从GitHub仓库自动收集技术文档并进行分块处理,形成基础语料库;其次利用GPT-4o对Stack Overflow社区问答对进行信息单元(nugget)提取,将复杂问题分解为原子事实;最后采用混合检索架构(包括BM25、BGE、E5-Mistral等模型)获取文档,并通过GPT-4o进行单元级相关性标注。整个过程特别注重领域专业性,选取LangChain等五个新兴技术主题,确保数据的前沿性和评估挑战性。
特点
该数据集的核心价值在于其真实性和专业性:所有问题均来自Stack Overflow社区真实提问,答案经过投票机制筛选,技术文档源自GitHub最新代码库。数据实例包含长达350-500token的复合问题(83%含代码片段),每个问题平均生成3-4个信息单元,每个单元关联3份以上经LLM验证的相关文档。相比传统基准,FreshStack通过动态更新机制和单元级评估体系,有效解决了现有基准存在的静态过时、问题简单化等缺陷,为技术文档检索提供了更贴近实际场景的测试环境。
使用方法
使用该数据集时,研究者可采用两阶段评估范式:先通过多样化检索模型(如融合BM25与稠密检索器)获取候选文档,再使用覆盖率(Coverage@20)和多样性指标(Ψ-nDCG@10)进行量化分析。数据集特别支持单元级相关性验证,允许将文档支持度细粒度匹配到每个信息单元。对于RAG系统开发,可进一步扩展答案生成评估,计算生成响应中支持单元的比例。为规避LLM数据污染风险,建议定期用框架新增技术话题来更新测试集。
背景与挑战
背景概述
FreshStack是由滑铁卢大学与Databricks团队于2025年推出的技术文档检索评估框架,旨在解决现有信息检索(IR)与检索增强生成(RAG)基准的三大局限:问题开放性不足、任务设计过于简单以及数据静态陈旧。该框架通过自动化流程构建评测数据集,包括从GitHub收集技术文档、基于社区问答生成信息单元(nugget),以及融合多检索技术的文档支持评估。其核心创新在于利用Stack Overflow真实技术问答和动态更新的代码库,构建了涵盖LangChain等5个前沿技术领域的评估基准,为IR系统在复杂技术场景下的性能提供了更贴近实际的测试环境。
当前挑战
FreshStack面临双重挑战:领域问题上,需解决技术文档特有的代码语义理解、多模态内容检索及专业术语映射等难题,现有检索模型在其基准上的表现较Oracle方法存在显著差距;构建过程中,需克服社区问答的噪声过滤、代码文档的自动化分块标准化,以及基于LLM的信息单元生成与相关性评估的可靠性验证等工程挑战。实验表明,传统检索模型在该数据集上平均覆盖率不足50%,且重排序器在部分技术领域(如Laravel)出现性能下降,突显了技术文档检索的特殊性与难度。
常用场景
经典使用场景
FreshStack数据集在信息检索(IR)和检索增强生成(RAG)系统的评估中具有重要应用。该数据集通过自动收集技术文档和社区问答数据,构建了一个包含复杂、开放性问题的高质量基准。其经典使用场景包括评估检索模型在技术文档上的性能,特别是在处理长文本、代码片段和多跳推理问题时。数据集的设计使得模型需要具备对技术文档的深度理解和精准检索能力,从而为研究者提供了一个极具挑战性的测试平台。
衍生相关工作
FreshStack的提出推动了多个相关研究方向的进展。例如,基于其框架,研究者开发了更多针对特定技术领域的评估基准,如CodeRAG-Bench和SWE-Bench。此外,FreshStack中采用的“信息块”评估方法也被广泛应用于其他长文本生成和检索任务中,如TREC 2024 RAG赛道。数据集的开放性和可扩展性进一步激发了社区对动态评估基准的探索,如LiveBench和RealTime QA等工作的衍生。
数据集最近研究
最新研究方向
FreshStack作为信息检索(IR)和检索增强生成(RAG)评估的前沿框架,近年来在技术文档检索领域引发了广泛关注。其核心创新在于通过自动化流程构建动态、专业化且抗污染的评测基准:1)从GitHub代码库和技术文档中自动构建语料库,2)基于社区问答生成信息单元(nugget),3)采用混合检索架构实现细粒度文档支持评估。该数据集特别聚焦快速发展的细分技术领域(如LangChain、Godot等),现有检索模型在其设定的五项任务中表现显著低于理论上限,揭示了当前技术在处理复杂技术问答时的局限性。值得注意的是,研究发现重排序器在部分主题中未能提升首阶段检索精度,这一现象为未来检索-重排序协同优化提供了新的研究切入点。FreshStack通过持续更新的机制和严格的防污染设计,为评估系统在真实场景下的泛化能力提供了重要基准,尤其对提升开发者文档检索、代码理解等专业场景的IR质量具有指导意义。
相关研究论文
  • 1
    FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents滑铁卢大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作