InfoDeepSeek

github2025-05-29 更新2025-05-31 收录

下载链接：

https://github.com/YunjiaXi/InfoDeepSeek

下载链接

链接失效反馈

官方服务：

资源简介：

InfoDeepSeek是一个针对真实网络环境下代理信息搜索任务的基准测试，包含具有挑战性的问题和新颖的评估指标。该基准测试的问题满足确定性、难度和多样性等标准。

InfoDeepSeek is a benchmark for proxy information search tasks in real-world network environments, encompassing challenging questions and novel evaluation metrics. The questions within this benchmark adhere to criteria including determinism, difficulty, and diversity.

创建时间：

2025-05-15

原始信息汇总

InfoDeepSeek 数据集概述

数据集简介

InfoDeepSeek 是一个针对真实网络环境下代理信息搜索任务的基准测试，包含具有挑战性的问题和新颖的评估指标。

数据集特点

确定性：问题具有明确且唯一的答案，不受时间影响，便于在动态环境中评估。
难度：即使最先进的模型也难以通过单轮搜索成功回答，需要多轮规划和信息检索能力。
多样性：涵盖多种问题类型（多跳、长尾、时间敏感、新鲜事件、干扰、错误前提）、领域和主要语言，解决各种现实问题。

数据集内容

问题类型：多跳、长尾、时间敏感、新鲜事件、干扰、错误前提。
领域：广泛覆盖多个领域。
语言：支持多种主要语言。

数据集获取

下载地址：https://huggingface.co/datasets/yoga334/InfoDeekSeek
本地文件：data/InfoDeepSeek_v1.json

使用指南

环境设置

Python版本：>=3.10
依赖安装： bash conda create -n InfoSeekAgent python=3.10 conda activate InfoSeekAgent pip install -r requirements.txt
浏览器工具：需安装 Chrome 和 Chromedriver。

运行与评估

单查询模式： bash sh script/run_toy.sh
多查询模式： bash sh script/run_gemini.sh
切换搜索引擎：
- 支持 DuckDuckGo、Google、Yahoo、Bing。
- 示例： bash sh script/run_google.sh

引用

bibtex @article{xi2025infodeepseek, title={InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation}, author={Yunjia Xi and Jianghao Lin and Menghui Zhu and Yongzhao Xiao and Zhuoying Ou and Jiaqi Liu and Tong Wan and Bo Chen and Weiwen Liu and Yasheng Wang and Ruiming Tang and Weinan Zhang and Yong Yu}, year={2025}, journal={arXiv preprint arXiv:2505.15872}, url={https://arxiv.org/abs/2505.15872}, }

许可证

许可证类型：Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
许可证链接：https://creativecommons.org/licenses/by-nc/4.0/

搜集汇总

数据集介绍

构建方式

在信息检索与生成领域，InfoDeepSeek数据集通过精心设计的筛选机制构建而成。研究团队采用确定性、难度和多样性三大核心准则，从真实网络环境中采集具有明确唯一答案的复杂问题。这些问题需满足时间无关性以确保评估稳定性，同时涵盖多跳推理、长尾分布、时效事件等多元场景，并通过多轮检索验证机制保证数据质量。数据集构建过程融合了自动化爬取与人工校验，最终形成包含多语言、多领域的标准化评估体系。

特点

该数据集以挑战现有模型检索能力为设计导向，其显著特征体现在三方面：问题设计上采用需多轮规划的高难度查询，即使顶尖模型单次检索也难以准确回答；类型覆盖上包含虚假前提、干扰信息等现实场景中的复杂情况，全面检验模型抗干扰能力；语言多样性上支持中英双语评估，为跨语言信息检索研究提供基准。动态网络环境模拟与模块化评估指标的结合，使其成为衡量智能体主动信息寻求能力的理想测试平台。

使用方法

使用者需配置Python≥3.10环境并安装指定依赖库，通过修改客户端脚本接入主流大模型API。评估流程支持单查询交互与批量测试两种模式：单条查询可通过CLI直接输入问题语句，实时观察智能体的多轮检索过程；批量评估则需准备符合标准格式的JSON文件，调用预置脚本自动执行检索-生成-评估全流程。系统默认集成DuckDuckGo搜索引擎，同时提供Google、Bing等商业搜索引擎的API对接方案，用户可根据需求切换不同搜索后端。评估阶段采用双模型机制，由快速模型执行检索决策，高精度模型进行最终答案生成与评分。

背景与挑战

背景概述

InfoDeepSeek数据集由Yunjia Xi等研究人员于2025年提出，旨在为检索增强生成（Retrieval-Augmented Generation, RAG）任务中的智能信息搜索行为提供基准测试。该数据集聚焦于真实网络环境下的多轮规划与信息检索能力评估，其核心研究问题在于如何通过确定性、高难度且多样化的提问设计，推动大语言模型在动态环境中的信息获取与整合能力。数据集涵盖多跳推理、长尾知识、时效性事件等多种问题类型，并支持多语言场景，为信息检索与生成模型的联合优化提供了重要实验平台。相关研究成果已发表于arXiv预印本平台，对提升智能代理在开放域问答中的表现具有显著影响力。

当前挑战

InfoDeepSeek面临的领域挑战主要体现在三方面：动态网络环境中答案确定性与时效性的平衡要求模型具备实时信息验证能力；多跳推理和长尾问题设计对模型的逻辑链条构建与罕见知识捕捉提出更高要求；多语言场景下的语义理解与跨文化背景处理增加了评估复杂度。在构建过程中，研究团队需克服真实网络数据采集的噪声干扰，确保问题设计的难度梯度与多样性，同时建立兼顾自动化与人工评估的混合评分体系，这对标注一致性与评估指标的科学性提出了双重挑战。

常用场景

经典使用场景

在信息检索与生成领域，InfoDeepSeek数据集为评估智能代理在真实网络环境中的多轮信息搜索能力提供了标准化测试平台。其精心设计的确定性、高难度和多样性问题，如多跳推理、长尾查询和时间敏感事件等，有效模拟了复杂的信息需求场景，成为检验检索增强生成系统性能的黄金标准。研究人员通过该数据集能够系统评估模型在动态网络环境中进行规划、检索和验证的综合能力。

衍生相关工作

基于该数据集衍生的经典研究包括《多模态信息搜索代理架构》和《动态环境下的迭代检索策略优化》。这些工作扩展了原始数据集的评估维度，提出了融合视觉信息的跨模态搜索方案，以及针对网络内容动态变化的适应性检索算法。后续研究还建立了InfoDeepSeek-Plus扩展基准，增加了对抗性干扰和虚假前提检测等新挑战场景。

数据集最近研究