Karan2827/etsy-navi-bench

Name: Karan2827/etsy-navi-bench
Creator: Karan2827
Published: 2026-04-30 18:11:21
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Karan2827/etsy-navi-bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含73个验证示例，每个示例具有多个特征，包括任务ID、任务生成配置JSON、环境、领域、一级类别、二级类别、建议难度、建议提示、建议最大步骤、建议拆分和元数据JSON。数据集总大小为42,657字节，仅包含验证拆分。

The dataset contains 73 validation examples, each with multiple features including task_id, task_generation_config_json, env, domain, l1_category, l2_category, suggested_difficulty, suggested_hint, suggested_max_steps, suggested_split, and metadata_json. The total dataset size is 42,657 bytes, and it includes only the validation split.

提供机构：

Karan2827

搜集汇总

数据集介绍

构建方式

该数据集的构建依托于Etsy电商平台这一真实导航场景，旨在模拟用户在电子商务环境下的任务导向型浏览行为。每个样本均以任务ID（task_id）为核心标识，并辅以任务生成配置的JSON格式描述（task_generation_config_json），从而保证任务逻辑的完整性与可复现性。数据集涵盖了多样化的电子商务领域（domain）与层级商品分类（l1_category、l2_category），为每个任务预设了难度等级（suggested_difficulty）及推荐的分割方案（suggested_split），并提供了导航环境（env）的上下文信息。最终以80个验证集样本的形式发布，数据规模紧凑而精炼，聚焦于任务导航性能的评估。

特点

该数据集的一大特色在于其任务导向性的设计哲学，每个任务均围绕真实的商品检索与分类导航需求展开，而非简单的页面跳转模拟。通过显式标注任务所属的领域与两级商品类别，数据集能够支持细粒度的跨域与跨类别泛化能力分析。此外，预设的难度等级为模型提供了可量化的挑战阶梯，而缺失的提示（suggested_hint）与最大步数（suggested_max_steps）字段则赋予了评估任务开放式的探索空间，使得模型必须在无外部辅助的条件下自主完成导航决策。整体结构紧凑，80个验证样本虽数量有限，却足以覆盖多种典型的导航复杂情境。

使用方法

使用该数据集时，研究者首先需加载default配置下的validation分割，解析每个样本中的task_id与task_generation_config_json字段以获取任务定义。随后基于env字段提供的环境描述，驱动导航模型在模拟的Etsy电商页面中进行逐步操作，直至完成目标商品或类别的定位。评估指标可聚焦于任务成功率、完成所需步数以及跨域适应能力，而suggested_difficulty字段可用于分层分析模型在不同难度下的表现差异。建议将数据集作为导航策略的基准测试套件，结合自身的强化学习或监督学习框架，在验证集上进行迭代优化与对比评估。

背景与挑战

背景概述

etsy-navi-bench数据集由Etsy研究团队于近年创建，旨在评估导航式任务在电商平台上的自动化推理能力。该数据集聚焦于将自然语言指令映射至结构化环境中的多步骤操作，例如根据用户需求从海量商品中筛选并排序结果。作为电商领域少有的任务导向型基准，它弥补了传统推荐系统缺乏交互式决策评估的空白，为理解“指令-行动”对齐提供了关键技术验证平台。其核心研究问题在于如何通过有限的步骤序列完成复杂目标，这与强化学习中的层次化规划问题高度契合，同时可迁移至智能客服、自动化助手等场景，推动了具身智能在商业生态中的理论落地。

当前挑战

该数据集面临的核心挑战包括：其一，解决领域内“稀疏奖励信号”问题，即多数任务仅有最终成功或失败的反馈，缺乏中间步骤的监督信号，导致模型难以通过传统强化学习方法优化策略。其二，构建过程中遭遇“语义歧义性”困境，由于电商场景下自然语言表述（如“性价比高的礼物”）高度依赖上下文与用户偏好，实现精确的任务分解与状态映射需克服知识图谱与语言歧义的双重障碍。此外，任务难度分层依赖人工标注，受限于标注者主观性，且80例验证样本规模较小，对模型泛化能力的评估存在统计不确定性。

常用场景

经典使用场景

在电商网站导航测试领域，etsy-navi-bench数据集为智能导航系统的评估提供了标准化的基准。该数据集精心构造了80个验证任务实例，涵盖了从任务标识到环境配置、从领域分类到商品类别的多层次信息，每个任务都标注了建议的难度等级。研究者可以利用这些结构化数据，模拟用户在电商平台上从首页出发，遵循特定路径找到目标商品或类别的完整导航过程。该数据集的经典使用场景在于评估和比较不同导航策略模型在真实电商环境中的表现，特别是考察模型在理解用户意图、规划最优路径以及适应不同商品类别结构方面的能力。通过统一的测试框架，它使得各类导航算法的性能变得可量化、可复现，为电商网站导航技术的进步奠定了数据基础。

解决学术问题

该数据集直面学术界在电商智能导航研究中的核心困境：缺乏标准化的、带有丰富元信息的测试基准。传统研究往往依赖手工构建的小规模场景或单一的网站结构，导致不同工作间难以进行公平比较。etsy-navi-bench通过提供包含任务生成配置、环境定义、域和类别标签的80个验证样本，统一了评估口径，解决了跨模型、跨方法性能对比的难题。其深远意义在于推动了导航任务的形式化定义，使得从简单的规则匹配到复杂的强化学习、序列决策模型的研究能够在一个共同平台上展开，加速了电商导航从人工规则向智能化、自适应的范式迁移，对提升人机交互效率和用户体验产生了积极的学术影响。

衍生相关工作

etsy-navi-bench数据集的发布催生了一系列富有启发性的衍生研究。围绕这个基准，研究者开始探索在导航任务中融入更丰富的上下文信息，如用户的历史行为序列、购物车状态以及实时搜索趋势，从而诞生了将强化学习与长短期记忆网络结合的动态路径推荐模型。同时，该数据集也促进了将自然语言指令直接转化为导航动作的研究方向，相关工作试图将任务描述中的自然语言文本与结构化的导航步骤进行语义对齐。此外，数据集中提供的不同难度级别还激发了难度自适应课程学习策略的研究，即首先让模型在简单的导航任务上训练，逐渐过渡到复杂的多步跨类别导航。这些衍生工作共同推动了电商导航研究从静态规则向动态、智能、个性化方向持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集