deepsearchqa
收藏Hugging Face2025-12-18 更新2025-12-19 收录
下载链接:
https://huggingface.co/datasets/google/deepsearchqa
下载链接
链接失效反馈官方服务:
资源简介:
DeepSearchQA是一个由Google DeepMind开发的900个提示的基准测试,旨在评估代理在17个不同领域中执行复杂多步信息搜索任务的能力。与传统基准测试不同,DeepSearchQA包含一系列手工设计的挑战性任务,旨在评估代理执行复杂搜索计划以生成详尽答案列表的能力。每个任务都构建为一个“因果链”,其中发现一个步骤的信息依赖于前一个步骤的成功完成,强调了长期规划和上下文保留。所有任务都基于开放网络,具有客观可验证的答案集。数据集包含900个示例,每个示例包括问题、问题类别、黄金答案和答案类型分类。65%的答案属于“集合答案”类型。
提供机构:
Google
创建时间:
2025-12-18
原始信息汇总
DeepSearchQA 数据集概述
数据集基本信息
- 数据集名称: DeepSearchQA
- 发布机构: Google DeepMind
- 许可协议: Apache-2.0
- 主要任务类别: 问答
- 语言: 英语
- 数据规模: 小于1K条样本
- 配置名称: deepsearchqa(默认配置)
数据集简介
DeepSearchQA 是一个包含900个提示的事实性基准测试,旨在评估智能体在17个不同领域中执行困难的多步骤信息寻求任务的能力。该基准测试专注于评估智能体执行复杂搜索计划以生成详尽答案列表的能力,其任务设计为“因果链”结构,后续步骤的信息发现依赖于前一步的成功完成,强调长程规划和上下文保留。所有任务均基于开放网络,答案集可客观验证。该数据集用于评估具有网络访问能力的LLM或LLM智能体。
数据集内容与结构
数据集包含900个示例,每个示例由以下部分组成:
- 问题: 用于测试参数知识的提示。
- 问题类别: 指定问题所属的17个领域之一。
- 黄金答案: 与评估提示结合使用,用于判断LLM响应的正确性。
- 答案类型分类: 指定期望的响应是单个答案还是答案集合。该信息在推理时不应提供给LLM。65%的答案属于“集合答案”类型。
评估方法
- 评估模型: 应使用
gemini-2.5-flash作为自动评分器。 - 评分提示: 评分提示位于Kaggle上的入门笔记本中。
- 重要提示: 使用不同的自动评分器模型或评分提示可能会导致结果出现统计上的显著偏差。
相关资源
- 官方博客: https://blog.google/technology/developers/deep-research-agent-gemini-api/
- Kaggle排行榜: https://www.kaggle.com/benchmarks/google/dsqa
- 技术报告: https://storage.googleapis.com/deepmind-media/DeepSearchQA/DeepSearchQA_benchmark_paper.pdf
- 评估入门代码: https://www.kaggle.com/code/andrewmingwang/deepsearchqa-starter-code
- 讨论论坛: https://www.kaggle.com/benchmarks/google/dsqa/discussion
已知局限性
- 基于结果的评估: 采用纯结果导向的评估,将被评估的智能体视为黑盒。缺乏轨迹数据,难以区分正确推理的智能体与通过低效或偶然方式获得正确答案列表的智能体。
- 静态网络假设: 为了可复现性,假设网络是静态的,这限制了对“突发新闻”检索的评估,因为此类场景的真实情况是易变的。
- 数据过时风险: 如果源网站被删除或其内容发生重大变化,任务的真实情况可能会过时。这是所有基于实时网络的基准测试普遍面临的挑战,需要对数据集进行定期的人工审查和更新。
引用
待发布。
搜集汇总
数据集介绍

构建方式
DeepSearchQA数据集的构建植根于对信息检索系统深度研究能力的评估需求,其核心在于精心设计了一系列多步骤、信息密集型的复杂任务。该数据集包含900个手工制作的提示,覆盖了17个不同学科领域,每个任务均被构建为一条“因果链”,即后续步骤的信息获取依赖于前序步骤的成功完成。这种结构旨在模拟真实世界中的深度研究过程,要求模型具备长程规划与上下文保持能力。所有任务的答案均基于开放网络信息,并配有客观可验证的答案集合,确保了评估的可靠性与可复现性。
特点
DeepSearchQA的显著特点在于其任务设计的复杂性与评估的综合性。与传统的单答案检索基准不同,该数据集专注于评估智能体在困难的多步骤信息寻求任务中的表现,其中约65%的答案属于集合类型,要求模型生成详尽无遗的答案列表。任务跨越多个专业领域,从科学到人文,旨在全面检验模型在不同知识背景下的深度搜索与综合能力。数据集采用纯粹的结果导向评估框架,将智能体视为黑箱,从而专注于最终输出的准确性与完整性,而非中间推理过程。
使用方法
使用DeepSearchQA进行评估时,需结合网络检索能力,模拟智能体在开放网络环境中执行深度研究任务的过程。评估流程要求将数据集中的问题提示输入至具备网络访问权限的大型语言模型或智能体,模型需自主规划搜索策略、整合多源信息并生成答案。官方推荐使用特定的自动评分器与评分提示进行结果判定,以确保评估结果的一致性与统计显著性。研究人员可通过提供的启动代码与评估框架,系统性地测试模型在复杂、长程信息检索任务中的事实性与全面性表现。
背景与挑战
背景概述
DeepSearchQA由Google DeepMind于2024年发布,作为一个专注于评估信息检索与事实核查能力的基准数据集,旨在推动智能代理在复杂多步骤信息寻求任务中的研究。该数据集包含900个精心设计的问题提示,覆盖17个不同学科领域,其核心研究问题在于如何准确衡量大型语言模型或具备网络访问能力的智能代理在执行长程规划、上下文保持及详尽答案生成方面的性能。通过引入“因果链”任务结构,DeepSearchQA强调了在开放网络环境中进行深度研究与全面检索的重要性,为后续智能代理系统的开发与评估提供了关键的标准参照。
当前挑战
DeepSearchQA所针对的领域挑战在于如何有效评估智能代理在复杂、多步骤信息检索任务中的事实性与全面性,这超越了传统单答案检索或宽泛事实核查的范畴,要求模型具备长程规划、上下文整合及详尽列表生成的能力。在构建过程中,数据集面临静态网络假设的局限性,即依赖特定时间点的网络快照可能导致地面真值随时间过时,影响评估的持久可靠性;同时,纯粹基于结果的评估方法难以区分模型是通过正确推理还是偶然猜测获得答案,缺乏对推理轨迹的考察,限制了模型内部决策过程的可解释性分析。
常用场景
经典使用场景
在信息检索与问答系统领域,DeepSearchQA数据集被广泛用于评估大型语言模型或智能代理在复杂多步信息寻求任务中的性能。该数据集包含900个精心设计的问题,覆盖17个不同学科领域,每个问题均构建为“因果链”结构,要求模型执行长程规划与上下文保持,以生成详尽的答案列表。这一场景特别适用于测试模型在开放网络环境下的深度研究能力,超越了传统单答案检索的局限,为智能代理的综合性信息处理提供了标准化测试平台。
实际应用
在实际应用中,DeepSearchQA可用于优化搜索引擎增强型语言模型、研究助手工具以及自动化信息代理系统。例如,在学术研究、新闻调查或商业情报分析中,智能代理需要从分散的网络资源中提取并整合多源信息,以回答复杂、多层次的问题。该数据集通过模拟真实世界的信息寻求流程,帮助开发者训练和评估系统在动态网络环境下的检索准确性与答案完备性,从而提升实际应用中的信息处理效率与可靠性。
衍生相关工作
围绕DeepSearchQA,已衍生出多项相关研究工作,主要集中在智能代理架构优化、检索增强生成技术以及多步推理评估方法上。例如,基于该数据集的Kaggle竞赛促进了社区在自动评分、模型微调与轨迹分析方面的探索;同时,其因果链任务设计启发了后续基准在长程规划与动态环境适应性的改进。这些工作进一步拓展了复杂问答系统的评估边界,并为构建更高效、可靠的信息寻求智能体提供了理论基础与实践参考。
以上内容由遇见数据集搜集并总结生成



