II-Search-Benchmark-Details

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/Intelligent-Internet/II-Search-Benchmark-Details

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个记录了问题回答过程中详尽推理步骤的数据集，包含了问题、答案、推理过程中的内容、函数调用、角色、响应时间、搜索调用次数等信息。数据集用于模型训练，并提供了训练集。

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

数据集名称: Inspect-Search-Models-Benchmarking-Result
数据集大小: 224,597,119 字节
下载大小: 70,122,614 字节
训练集样本数: 26,304

数据集特征

问题 (question): 字符串类型
最终答案 (final_answer): 字符串类型
完整追踪 (full_trace):
- 内容 (content): 字符串类型
- 函数调用 (function_call):
  - 参数 (arguments): 字符串类型
  - 名称 (name): 字符串类型
- 推理内容 (reasoning_content): 字符串类型
- 角色 (role): 字符串类型
响应时间 (response_time): 浮点数类型
搜索调用次数 (num_search_calls): 整数类型
访问调用次数 (num_visit_calls): 整数类型
总函数调用次数 (total_function_calls): 整数类型
思考条目 (thinking_entries): 整数类型
总轮次 (total_turns): 整数类型
成功 (success): 布尔类型
错误 (error): 空类型
重试次数 (retry_count): 整数类型
真实答案 (ground_truth): 字符串类型
上下文 (context): 字符串类型
提取答案 (extracted_answer): 字符串类型
是否正确 (is_correct): 字符串类型
提取是否正确 (is_correct_extracted): 字符串类型
模型名称 (model_name): 字符串类型
数据集 (dataset): 字符串类型
索引级别 (index_level_0): 整数类型
评论 (review): 字符串类型

性能对比结果

总体结果

	Qwen 4B	Jan 4B	WebSailor-3B	II-Search-4B	II-Search-CIR-4B
OpenAI/SimpleQA	76.8	80.1	81.8	91.8	91.8
Google/Frames	30.7	24.8	34.0	67.5	72.2
Seal_0	6.31	2.7	1.8	22.5	26.4

Simple QA (SerpDev)

	Qwen 4B	Jan 4B	WebSailor-3B	II-Search-4B	II-Search-CIR-4B
通过率 %	76.8	80.1	81.8	91.8	91.8
搜索次数	1.0	0.9	2.1	2.2	2.5
访问次数	0.1	1.9	6.4	3.5	5.3
工具使用次数	1.1	2.8	8.5	5.7	7.8

Frames (SerpDev)

	Qwen 4B	Jan 4B	WebSailor-3B	II-Search-4B	II-Search-CIR-4B
通过率 %	30.7	24.8	34.0	67.5	72.2
搜索次数	1.1	1.0	7.4	4.2	6.1
访问次数	0.1	3.7	7.2	3.2	5.0
工具使用次数	1.2	4.7	14.6	7.4	11.1

Seal_0 (SerpDev)

	Qwen 4B	Jan 4B	WebSailor-3B	II-Search-4B	II-Search-CIR-4B
通过率 %	6.31	2.7	1.8	22.5	26.4
搜索次数	0.9	0.9	6.6	4.3	5.9
访问次数	0.1	5.2	10.0	5.7	7.7
工具使用次数	1.0	6.1	16.6	10.0	13.5

搜集汇总

数据集介绍

构建方式

在信息检索与智能问答系统快速发展的背景下，II-Search-Benchmark-Details数据集通过结构化记录多模型交互轨迹构建而成。该数据集采用自动化测试框架捕获了26,304条完整问答会话，每条数据包含问题输入、最终答案、函数调用序列及耗时等18个精细字段，特别设计了full_trace嵌套结构以保存搜索决策过程中的思维链、角色转换和API调用细节。原始数据来源于SerpDev平台对Qwen、Jan等5个模型的横向测评，通过标准化接口采集了SimpleQA、Frames等三类任务场景下的交互日志。

使用方法

研究者可基于该数据集开展多角度分析，通过question-final_answer对评估基础问答性能，利用full_trace中的function_call序列研究搜索策略优化。对于模型比较研究，可交叉分析model_name字段与pass rate等指标的关系。时间序列分析可结合response_time与total_function_calls探索效率瓶颈，而thinking_entries与success的关联研究则能揭示认知深度对结果的影响。使用前需注意数据已按train划分，建议先提取__index_level_0__建立索引以提升查询效率。

背景与挑战

背景概述

II-Search-Benchmark-Details数据集是近年来信息检索与智能问答领域的重要基准测试工具，由专业研究团队构建以评估不同搜索模型的性能。该数据集聚焦于多轮对话场景下的复杂问题解答能力，通过结构化记录问题、最终答案、完整推理轨迹及各类调用指标，为模型优化提供多维度的分析依据。其创新性体现在融合了搜索次数、访问次数、工具使用量等操作层面的量化指标，与传统的准确率评价形成互补，推动了对话式搜索系统向可解释性与效率并重的方向发展。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，如何精准评估模型在开放式问答中的推理连贯性与事实准确性仍存在难度，特别是当涉及多跳问题或时效性内容时，现有评价指标对语义理解的深度刻画不足；在构建技术层面，海量交互轨迹的标准化标注需要平衡细粒度与可扩展性，动态对话中工具调用的有效性验证、噪声数据的清洗策略以及不同领域测试集间的可比性校准，均为数据质量控制带来显著挑战。

常用场景

经典使用场景

在信息检索与智能问答系统的研究领域，II-Search-Benchmark-Details数据集被广泛用于评估模型在复杂查询场景下的性能表现。该数据集通过记录问题、最终答案、完整追踪路径以及多种交互指标，为研究者提供了丰富的多轮对话与搜索行为分析素材。其独特的函数调用记录和推理内容字段，使得该数据集特别适合用于研究模型在开放式问答中的决策逻辑与信息验证能力。

解决学术问题

该数据集有效解决了智能问答系统中三个关键学术问题：多模态信息整合的评估难题、搜索策略优化的量化分析以及复杂问题拆解能力的测量。通过精确记录的搜索调用次数、访问次数和工具使用数据，研究者能够深入分析模型在信息获取效率与准确性之间的权衡机制。其包含的成功率与错误类型标注，更为理解模型在真实场景中的失败模式提供了重要依据。

实际应用

在实际应用中，该数据集支撑了搜索引擎优化、智能客服系统开发以及教育辅助工具的设计。企业利用其丰富的交互轨迹数据改进搜索算法的相关性排序，教育机构则基于问题拆解模式开发分步骤教学系统。特别是在需要多轮澄清的医疗咨询和法律问答领域，该数据集提供的完整对话轨迹为构建可靠的垂直领域助手提供了关键训练素材。

数据集最近研究