wikispeedia-traces

Name: wikispeedia-traces
Creator: Hugging Face TB Research
Published: 2025-05-01 03:12:57
License: 暂无描述

Hugging Face2025-05-01 更新2025-05-02 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceTB/wikispeedia-traces

下载链接

链接失效反馈

官方服务：

资源简介：

Wikihop实验结果数据集，包含了使用Qwen3-14B模型进行实验的配置参数和实验结果。数据集共有420个示例，记录了每次实验的步骤、当前文章、动作、观察、提示和响应等信息。

提供机构：

Hugging Face TB Research

创建时间：

2025-05-01

原始信息汇总

Wikispeedia Traces 数据集概述

数据集基本信息

数据集名称: Wikihop Experiment Results
来源文件: qwen3-final-results.json
下载大小: 12637字节
数据集大小: 230982字节
示例数量: 420

数据结构

特征字段:
- model: 字符串类型
- api_base: 字符串类型
- max_links: 整型
- max_tries: 整型
- start_article: 字符串类型
- destination_article: 字符串类型
- seed: 整型
- result: 字符串类型
- steps: 序列类型，包含以下子字段:
  - step: 整型
  - type: 字符串类型
  - current_article: 字符串类型
  - action: 字符串类型
  - observation: 字符串类型
  - prompt: 字符串类型
  - response: 字符串类型

实验参数

每对试验次数: 1
每局最大步数: 20
代理设置:
- 模型: hosted_vllm/Qwen/Qwen3-14B
- API基础地址: http://ip-26-0-163-127:8000/v1/
- 最大链接数: 500
- 最大尝试次数: 3

统计摘要

总运行次数: 420
胜率: 55.24%
平均跳数(胜利时): 6.64

搜集汇总

数据集介绍

构建方式

wikispeedia-traces数据集源于对大规模语言模型在复杂路径推理任务中的表现评估。该数据集通过模拟维基百科文章间的导航任务构建，采用Qwen3-14B模型在严格控制的环境参数下生成实验数据。每个实验单元包含起点文章、目标文章及模型在20步限制内的完整决策轨迹，记录包括步骤类型、当前文章、动作响应等结构化字段，最终形成包含420次完整实验的标准化数据集。

特点

该数据集最显著的特征在于其完整记录了语言模型在开放式路径探索中的决策过程。每个数据样本不仅包含起点和终点的文章对，更详细保存了模型在导航过程中所有中间步骤的思考链条，包括选择的超链接、生成的推理文本以及系统观察到的页面内容。这种细粒度的行为轨迹为研究语言模型的空间推理能力提供了独特视角，55.24%的成功率和6.64的平均跳转次数则量化反映了模型在该任务上的表现基准。

使用方法

研究者可通过分析steps序列中的prompt-response交互模式，深入理解语言模型在多跳推理中的决策机制。数据集的结构化设计支持从多个维度展开分析：既可统计不同路径长度下的成功率分布，也能通过action和observation字段重建完整的决策树。典型应用场景包括评估模型的空间推理能力、优化提示工程策略，或作为强化学习环境中训练智能体的基准任务。使用时需注意实验参数的一致性，特别是max_links和max_tries等关键约束条件对结果的影响。

背景与挑战

背景概述

Wikispeedia-traces数据集源于对人类导航行为和知识获取路径的深入研究，由计算机科学与认知科学领域的跨学科团队构建。该数据集的核心研究问题聚焦于模拟和解析用户在维基百科等超文本环境中的信息检索路径，旨在揭示人类认知模式与机器智能在复杂信息网络中的行为差异。数据集通过记录用户在起始文章与目标文章之间的跳转轨迹，为理解人类决策过程与机器推理能力提供了宝贵的实验数据。其独特的设计理念和丰富的交互步骤记录，使其成为评估智能代理在多跳推理任务中表现的重要基准。

当前挑战

Wikispeedia-traces数据集面临的核心挑战体现在两个维度：在领域问题层面，多跳推理任务要求智能体具备长期依赖关系建模和知识关联能力，现有模型在跨文章语义衔接和路径优化方面仍存在显著差距；在构建过程中，数据采集需要平衡轨迹多样性与逻辑连贯性，人工标注的高成本与自动化生成的可靠性之间的矛盾尤为突出。实验设置中的最大跳数限制与真实场景的开放性存在偏差，如何构建更具生态效度的评估框架仍需探索。

常用场景

经典使用场景

在信息检索与知识图谱领域，wikispeedia-traces数据集通过模拟用户在维基百科文章间的导航路径，为研究人类信息搜索行为提供了标准化实验环境。该数据集通过记录智能体在限定步数内从起始文章到目标文章的跳转过程，尤其适合用于评估强化学习模型在开放式知识空间中的路径规划能力。其包含的420条实验轨迹与55.24%的成功率指标，为对比不同智能体的导航策略提供了量化基准。

衍生相关工作

基于该数据集衍生的经典研究包括知识图谱增强的强化学习框架、多跳推理评估基准体系等。Qwen3-14B模型的实验结果表明，大语言模型在知识导航任务中展现出惊人的潜力，后续工作进一步探索了混合记忆模块与动态注意力机制对路径规划效果的提升，推动了认知科学与人工智能的交叉研究。

数据集最近研究