ldr-benchmarks

Hugging Face2026-04-19 更新2026-04-20 收录

下载链接：

https://huggingface.co/datasets/local-deep-research/ldr-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

LDR社区基准测试数据集是一个聚合的排行榜数据集，用于记录Local Deep Research（LDR）社区对SimpleQA、BrowseComp和xbench-DeepSearch的基准测试运行结果。该数据集托管在Hugging Face上，并自动从GitHub仓库更新。数据集包含多个配置，分别对应不同的基准测试（SimpleQA、BrowseComp和xbench-DeepSearch），每个CSV行代表一次基准测试运行。数据集提供了丰富的字段信息，包括数据集名称、模型、准确率、硬件配置等。使用该数据时需注意数据为社区自行提交，可能存在评估偏差、小样本量等问题。数据集适用于问答任务的研究和比较，但需遵守各基准测试的上游许可要求。

创建时间：

2026-04-06

原始信息汇总

LDR Community Benchmarks 数据集概述

数据集基本信息

数据集名称：LDR Community Benchmarks (Leaderboards)
发布者：Local Deep Research (LDR) community
托管平台：Hugging Face
许可证：Creative Commons Attribution 4.0 International (CC BY 4.0)
任务类别：问答
语言：英语
标签：benchmark, local-deep-research, ldr, simpleqa, browsecomp, xbench, rag, search
数据规模：n<1K
数据源仓库：https://github.com/LearningCircuit/ldr-benchmarks

数据集内容与目的

本数据集是Local Deep Research (LDR)社区基准测试运行的聚合排行榜，包含针对SimpleQA、BrowseComp和xbench-DeepSearch三个基准的测试结果。数据集仅包含聚合后的CSV排行榜文件，原始提交的YAML文件（包含配置详情、注释等）存储在GitHub仓库中。

包含的基准测试

SimpleQA
- 来源：OpenAI
- 许可证：MIT License (https://github.com/openai/simple-evals/blob/main/LICENSE)
- 特点：允许在GitHub的原始YAML中包含完整的逐题示例。
BrowseComp
- 来源：OpenAI
- 特点：使用加密数据集和验证字符串。仅接受聚合指标（原始YAML中不允许包含逐题示例）。
- 参考：BrowseComp论文 (https://cdn.openai.com/pdf/5e10f4ab-d6f7-442e-9508-59515c65e35d/browsecomp.pdf) 和 openai/simple-evals (https://github.com/openai/simple-evals)。
xbench-DeepSearch
- 来源：xbench团队
- 特点：使用加密数据集。仅接受聚合指标（原始YAML中不允许包含逐题示例）。
- 参考：xbench-ai/xbench-evals (https://github.com/xbench-ai/xbench-evals)。

注意：禁止以纯文本形式分发BrowseComp和xbench的问题或答案。

数据配置

数据集提供以下配置，可通过Dataset Viewer顶部的下拉菜单切换：

all：所有基准测试的运行结果汇总（默认配置）。
simpleqa：仅SimpleQA的运行结果。
browsecomp：仅BrowseComp的运行结果。
xbench-deepsearch：仅xbench-DeepSearch的运行结果。

数据字段说明

每个CSV行（代表一次基准测试运行）包含以下列： dataset, model, model_provider, quantization, strategy, search_engine, accuracy_pct, accuracy_raw, correct, total, iterations, questions_per_iteration, avg_time_per_question, total_tokens_used, temperature, context_window, max_tokens, hardware_gpu, hardware_ram, hardware_cpu, evaluator_model, evaluator_provider, ldr_version, date_tested, contributor, notes, source_file。其中source_file列指向GitHub仓库中的原始YAML文件。

数据使用注意事项

数据性质：这是一个社区提交的排行榜，并非受控实验。
自报告性质：运行结果由贡献者提交，CI会验证模式并标记明显问题，但运行本身未经独立重新执行。
评估偏差：许多提交使用LLM评分器（默认是通过OpenRouter的Claude 3.7 Sonnet），存在不可忽视的错误率。
样本量小：许多运行使用50-200个问题，置信区间较宽，行间的小差异通常不显著。
时间依赖性：avg_time_per_question取决于硬件、网络延迟、搜索引擎响应能力和模型服务器负载。
数据污染风险：SimpleQA已公开分发，可能出现在某些模型的训练数据中。
策略语义漂移：LDR策略在不同版本间会演变，建议比较使用相同ldr_version的运行。

贡献者

感谢以下贡献者提交基准测试运行：

LearningCircuit — 6 submissions
Daniel Petti — 1 submission
kwhyte7 — 1 submission

引用方式

bibtex @misc{ldr_community_benchmarks, title = {LDR Community Benchmarks}, author = {The Local Deep Research community}, year = {2026}, publisher = {Hugging Face / GitHub}, howpublished = {url{https://huggingface.co/datasets/local-deep-research/ldr-benchmarks}} }

搜集汇总

数据集介绍

构建方式

在本地深度研究领域，数据集的构建过程体现了社区协作与自动化管理的融合。该数据集通过GitHub仓库作为原始提交的权威来源，接受社区成员以YAML格式提交的基准测试运行结果。每次提交均经过持续集成流程的验证，确保数据格式的合规性，随后系统自动将多个基准测试的结果聚合生成CSV格式的排行榜。这一构建方式不仅保障了数据来源的透明与可追溯，也通过自动化处理维持了数据集的动态更新与一致性。

使用方法

使用该数据集时，研究者可通过Hugging Face平台的数据集查看器直接浏览或下载聚合后的CSV文件。用户可根据研究焦点，灵活切换不同配置以筛选特定基准的测试结果。数据分析应结合数据集的注意事项，审慎解读自我报告的指标，并考虑评估偏差与小样本量带来的统计不确定性。对于深入探究，用户可依据记录中的源文件指引，追溯至GitHub仓库查阅原始的YAML提交细节，从而获得更完整的实验上下文与配置信息。

背景与挑战

背景概述

在信息检索与问答系统领域，评估模型在复杂、真实场景下的深度研究能力已成为一项核心研究课题。LDR Community Benchmarks数据集由Local Deep Research社区于2026年创建并维护，旨在聚合多个前沿基准测试（包括SimpleQA、BrowseComp和xbench-DeepSearch）的评估结果，形成一个统一的排行榜。该数据集的核心研究问题聚焦于衡量不同模型与策略在执行本地深度研究任务时的性能表现，特别是其在开放域问答、网页浏览理解及深度搜索等任务上的准确性与效率。通过社区协作的方式收集和验证数据，该数据集为研究人员提供了一个公开、透明的性能比较平台，对推动检索增强生成（RAG）技术及智能代理系统的发展具有重要影响力。

当前挑战

该数据集旨在解决评估模型在本地深度研究任务中综合能力的挑战，这些任务要求模型不仅能够准确回答问题，还需具备信息检索、多步推理及上下文理解等复杂能力。构建过程中面临多重挑战：首先，数据来源多样且受不同许可协议约束，需协调SimpleQA、BrowseComp和xbench-DeepSearch等基准测试的集成，同时遵守其数据加密与分发政策；其次，社区提交的评估结果存在自我报告偏差，尽管有自动化验证机制，但缺乏独立复现，可能影响结果的可靠性；此外，评估过程中使用的LLM评分器存在固有误差，小型样本量导致统计置信区间宽泛，且模型训练数据污染风险难以完全规避，这些因素共同构成了数据集在代表性与严谨性方面的核心挑战。

常用场景

经典使用场景

在检索增强生成（RAG）与本地深度研究（LDR）领域，该数据集作为社区基准测试的聚合平台，其经典使用场景在于系统性地评估不同模型与策略在复杂问答任务上的性能。研究者通过整合SimpleQA、BrowseComp及xbench-DeepSearch等权威基准，能够横向对比各类模型在准确率、响应时间及资源消耗等维度的表现，从而为优化LDR框架提供实证依据。

解决学术问题

该数据集有效应对了检索增强生成系统中模型评估标准不一、实验结果难以复现的学术挑战。通过提供结构化的社区提交机制与自动化生成的排行榜，它促进了开放、透明的性能比较，助力研究者深入探究策略演进、评估偏差及数据污染等关键问题，为RAG技术的可靠性与泛化能力研究奠定了数据基础。

实际应用

在实际应用中，该数据集为开发团队与企业在构建智能问答系统、网络浏览辅助工具及深度搜索引擎时提供了关键的基准参考。工程师可依据排行榜中不同硬件配置下的性能数据，权衡模型选择、量化策略与搜索引擎搭配，从而在真实部署场景中实现效率与精度的平衡，加速产品迭代与优化决策。

数据集最近研究