smoltrace-food-delivery-tasks-v2

Hugging Face2025-11-23 更新2025-11-24 收录

下载链接：

https://huggingface.co/datasets/MCP-1st-Birthday/smoltrace-food-delivery-tasks-v2

下载链接

链接失效反馈

官方服务：

资源简介：

SMOLTRACE合成数据集是一个包含100个任务的合成数据集，专为食品配送领域设计。数据集使用TraceMind MCP Server的合成数据生成工具生成，遵循SMOLTRACE评估格式。每个任务都有唯一的标识符、描述、预期使用的工具、难度和代理类型。

创建时间：

2025-11-22

原始信息汇总

SMOLTRACE合成数据集概述

数据集基本信息

任务数量: 100个任务
数据格式: SMOLTRACE评估格式
生成方式: AI驱动的合成任务生成
许可证: MIT

数据集用途

主要用途: 与SMOLTRACE评估框架配合使用
适用场景: 智能体评估

数据集结构

每个任务包含以下字段：

id: 唯一任务标识符
prompt: 任务描述
expected_tool: 智能体应使用的工具
difficulty: 任务复杂度（简单/中等/困难）
agent_type: 智能体类型（工具/代码）

提示模板配置

系统提示模板

角色定义: 专业食品配送助手
核心能力: 使用工具调用解决任何任务
工具访问权限:
- search_restaurants: 按菜系、位置、评分或其他筛选条件搜索餐厅
- view_menu: 查看特定餐厅的菜单
- place_order: 从餐厅下单指定商品和配送地址
- track_delivery: 跟踪活跃配送订单的状态和位置
- apply_promo: 对订单应用促销代码或折扣
- rate_restaurant: 评价餐厅并可选择留下评论
- contact_driver: 联系活跃订单的配送司机

任务处理原则

在下单前始终确认餐厅可用性
订购前检查菜单项确保存在
在最终确定订单前应用任何可用折扣
跟踪时提供清晰的配送状态更新
如果商品不可用，主动提供替代建议

技术规格

领域: 食品配送
智能体类型: 工具型
工具集: search_restaurants, view_menu, place_order, track_delivery, apply_promo, rate_restaurant, contact_driver

生成来源

生成工具: TraceMind MCP服务器的合成数据生成工具
项目背景: MCP一周年黑客马拉松项目的一部分
相关链接: https://huggingface.co/spaces/MCP-1st-Birthday/TraceMind-mcp-server

搜集汇总

数据集介绍

构建方式

在智能代理评估领域，该数据集采用TraceMind MCP服务器的合成数据生成技术构建而成。通过人工智能驱动的任务生成机制，系统化创建了100个涵盖外卖服务场景的评估任务，每个任务均遵循SMOLTRACE标准化评估格式。数据生成过程深度融合领域知识，确保任务逻辑与真实业务场景高度吻合，为代理系统评估提供结构化测试基准。

特点

该数据集专精于外卖服务领域评估，其核心特征体现在多维度的任务设计架构。每个任务包含唯一标识符、任务描述、预期工具调用、难度分级及代理类型等结构化字段，形成完整的评估闭环。特别设计的提示模板集成领域专属工具链，涵盖餐厅搜索、菜单浏览、订单处理等全流程操作，通过易中难三级难度设置实现渐进式能力测评。

使用方法

基于SMOLTRACE评估框架，研究人员可通过标准接口加载数据集进行系统验证。使用流程包含数据集加载、模型配置与评估执行三个关键环节，支持与各类代理架构无缝集成。配套的提示模板文件定义了专业化系统指令与工具调用规范，确保评估过程与领域需求精准对齐，为智能代理在外卖服务场景的效能评估提供标准化度量体系。

背景与挑战

背景概述

随着人工智能在服务自动化领域的深入应用，2024年诞生的smoltrace-food-delivery-tasks-v2数据集由TraceMind MCP Server团队基于合成数据生成技术构建。该数据集聚焦于智能体在餐饮配送场景中的工具调用能力评估，通过精心设计的任务流程模拟真实世界的外卖服务环节。其核心研究目标在于解决对话式智能体在多工具协同环境下的任务规划与执行精度问题，为餐饮垂直领域的智能助手系统提供了标准化测试基准，显著推进了服务型人工智能的实用化进程。

当前挑战

在餐饮配送领域，智能体需应对动态菜单更新、实时路径优化与多模态用户交互等复杂场景，传统方法难以保证任务执行的连贯性与容错率。数据集构建过程中面临合成数据真实性与多样性的平衡挑战，既要确保工具调用序列符合业务逻辑约束，又需覆盖异常订单处理、促销规则冲突等边缘案例。此外，跨工具状态维护与时空敏感型任务的建模精度，仍是当前评估体系需要突破的技术瓶颈。

常用场景

经典使用场景

在智能体评估领域，该数据集通过模拟真实外卖服务场景，为工具调用型智能体提供了标准化的测试环境。其精心设计的任务序列涵盖餐厅搜索、菜单查看、订单处理及配送追踪等完整业务流程，使研究者能够系统评估智能体在多轮交互中的工具调用准确性与任务完成效率。这种结构化评估框架已成为衡量对话式AI系统实用性能的重要基准。

实际应用

在产业实践中，该数据集为外卖平台智能客服系统的开发提供了关键训练素材。基于其生成的对话流程可直接迁移至实际业务系统，用于优化订单处理、促销推荐和异常应对等核心功能。通过模拟用户与配送骑手的交互场景，显著提升了智能助手在高峰时段的并发处理能力与多轮对话稳定性，降低了人工客服的介入频率。

衍生相关工作

该数据集催生了多项智能体评估领域的创新研究。基于其构建的跨任务泛化基准推动了工具学习范式的演进，衍生出包括动态工具组合、多模态状态跟踪在内的新型评估框架。相关工作进一步扩展至餐饮推荐系统与实时调度算法的联合优化，为构建具备长期记忆与上下文感知能力的业务智能体奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集