Edge-Agent-Reasoning-WebSearch-260K

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/yatin-superintelligence/Edge-Agent-Reasoning-WebSearch-260K

下载链接

链接失效反馈

官方服务：

资源简介：

Edge Agent Reasoning WebSearch 260K 是一个大规模、合成的专家级语料库，包含超过7亿个令牌，旨在训练小型本地模型（SLMs）和边缘部署的代理，以进行高级问题解构和自我意识推理。数据集通过模拟专家级的多阶段推理轨迹，训练模型作为预路由器或系统2思维代理，能够系统性地分解复杂指令、识别知识缺口、制定模糊点并构建专家级网络搜索查询。数据集包含263,098行数据，每行包含2,000至5,000字的推理轨迹（agent_reasoning），涵盖200多种专业角色和多种操作系统环境。数据以Parquet格式分发，适用于文本生成、问答和多任务处理。数据集采用MIT许可证，支持学术、个人和商业模型训练应用。

创建时间：

2026-03-10

原始信息汇总

Edge Agent Reasoning WebSearch 260K 数据集概述

数据集基本信息

数据集名称: Edge Agent Reasoning WebSearch 260K
数据集标识: yatin-superintelligence/Edge-Agent-Reasoning-WebSearch-260K
许可证: MIT
主要语言: 英语 (en)
数据规模: 100K < n < 1M (具体为 263,098 条样本)
任务类别: 文本生成、问答、任意到任意
数据格式: Parquet (.parquet)
文件大小: 约 712.9 MB

核心目标与设计理念

该数据集是一个大规模、专家级合成的语料库，旨在训练小型本地模型和边缘部署的智能体进行高级问题解构和自我意识推理。其核心设计理念是训练模型充当预备路由器或系统2思维智能体，而非直接执行指令。当面对复杂的、特定领域的指令时，智能体的任务是系统性地分解请求、识别自身知识缺口、阐明具体模糊之处，并构建专家级的网络搜索查询。这种预备性推理为后续更强大的前沿模型提供了执行最终任务所需的精确、已验证的上下文。

数据集关键统计

总样本数: 263,098 行
用户提示词总令牌数: 43,154,719
智能体推理总令牌数: 666,451,466
数据集总令牌数 (所有列): 约 7.129 亿
生成计算消耗: 约 14.7 亿令牌

数据内容与结构

数据特征 (Schema)

列名	数据类型	描述
`batch_index_id`	int64	标识样本来源提示批次的索引。
`role`	string	发出提示的模拟用户专业角色。
`industry`	string	任务所属的概念性行业部门。
`os`	string	与任务约束相关的操作系统环境。
`user_prompt`	string	合成用户提供的原始初始指令或查询。
`agent_reasoning`	string	包含 2,000 至 5,000 词的内部推理输出。

五阶段推理结构

每条数据中的 agent_reasoning 字段遵循一个高度分析性的五阶段结构：

理解请求: 识别核心目标并内化所有约束条件。
已知与未知: 审计自身知识库，区分已知事实与假设。
请求中的模糊之处: 识别缺失参数、模糊指令或冲突约束。
响应前需确认的事项: 生成需验证的事实、依赖项、API状态和文档的明确清单。
网络搜索查询: 生成 10 到 20 个高度具体、关键词密集的查询，为下游检索增强生成管道做准备。

数据多样性与生成方法

组合矩阵与采样

数据集的提示指令来源于一个自定义的七维组合矩阵，维度包括：行业、专业角色、软件栈、任务类型、操作系统、难度和风险等级。通过使用7个不同的大质数进行加密加扰和哈希处理，创建了一个包含10亿个有效排列的确定性搜索空间。最终仅从中采样了约26万行独特数据，采样率极低（0.026%），确保了数据具有极高的零样本多样性，避免了语义重复。

覆盖范围

操作系统环境: 全面覆盖 Apple 生态系统、Windows 环境、服务器基础设施、Linux 发行版、云终端、Android、ChromeOS、iPadOS 等。
专业角色: 包含 200 多种专业角色，涵盖软件工程、医疗、法律、金融、科学、艺术、设计、音乐、音频、视频等多个领域。角色按任务数量分组，从超过2000条任务的常见角色（如DevOps工程师、系统管理员、CEO）到100-500条任务的特定领域角色（如天体物理学家、法务助理、游戏程序员）。

预期用途与核心能力

推理微调: 增强 7B-14B 参数模型的逐步推理能力。
自我意识与谦逊: 训练模型将其自信视为需要验证的信号，而非正确性的证据。
搜索查询生成: 训练检索增强生成路由器生成密集的、专家级的查询。
提示词拦截: 训练分类器拦截构建不良或模糊的用户提示，在消耗昂贵API资源前要求澄清。

创建者与许可

创建者: Yatin Taneja (AI系统工程师、超级智能研究员)
许可证: MIT 许可证，允许用于学术、个人和商业模型训练应用，需保留原始许可证和版权声明。

搜集汇总

数据集介绍

构建方式

在人工智能代理架构的演进背景下，Edge-Agent-Reasoning-WebSearch-260K数据集的构建采用了系统性合成工程方法。其核心在于一个精心设计的七维组合矩阵，该矩阵涵盖了行业、专业角色、软件栈、任务类型、操作系统、难度与风险等级等关键维度。通过运用大质数进行加密哈希处理，生成了高达十亿级的有效排列空间，并从中以极低采样率（约0.026%）抽取了约26万条独特样本，确保了数据在语义上的高度多样性与零样本泛化能力。每条数据记录均包含一段长达2000至5000词的详尽推理轨迹，模拟了专家在复杂技术任务中的结构化思维过程。

特点

该数据集的核心特征在于其深度结构化的五阶段推理框架，旨在培养模型的自省与规划能力。它引导模型从理解请求、辨析已知与未知、识别模糊性、建立验证清单，直至生成精准的网页搜索查询，形成一个完整的“思考-验证-检索”闭环。数据集覆盖了超过200种专业角色，并严格约束于特定的操作系统环境，从常见的桌面系统到嵌入式Linux及各类云终端，确保了训练场景的现实性与复杂性。这种设计迫使模型超越简单的指令执行，转而发展出基于上下文感知与自我审计的高级问题解构能力。

使用方法

该数据集主要用于训练小型本地模型或边缘部署的智能体，使其充当系统2思维代理或预备路由器的角色。在实际应用中，经过该数据集微调的模型能够拦截原始用户指令，对其进行深度解构与自我知识审计，识别关键的信息缺口与模糊之处，并最终生成一系列专家级的、密集关键词构成的网页搜索查询。这些查询旨在为下游一个更强大的前沿模型提供精确、经过验证的上下文，从而构建高效的检索增强生成管道，以可靠地完成最终任务，有效避免因上下文缺失导致的幻觉问题。

背景与挑战

背景概述

在人工智能领域，特别是边缘计算与智能体系统研究中，如何使轻量级模型具备复杂问题解构与自我验证能力，是推动分布式智能应用落地的核心挑战。Edge-Agent-Reasoning-WebSearch-260K数据集由AI系统工程师Yatin Taneja于近期创建，旨在通过大规模合成数据训练小型本地模型与边缘部署智能体，使其掌握高级推理与检索规划能力。该数据集围绕系统二思维模式构建，核心研究问题聚焦于如何让模型在缺乏上下文时避免幻觉，转而充当“预备路由器”，通过多阶段推理识别知识缺口并生成精确的检索查询，从而为下游前沿模型提供验证后的上下文。这一创新为边缘智能体架构、检索增强生成以及模型自我认知等领域提供了重要的数据基础，推动了轻量级模型在复杂专业任务中的实际应用。

当前挑战

该数据集致力于解决边缘智能体在复杂领域任务中面临的挑战，核心在于克服大型语言模型常见的过度自信与幻觉问题，训练模型在缺失上下文时进行自我审计与验证规划。构建过程中的挑战尤为显著：首先，为确保数据的多样性与零样本泛化能力，创建者设计了一个七维组合矩阵，涵盖行业、角色、软件栈等维度，并通过加密哈希生成十亿级排列空间，从中极低比例采样以避免语义塌缩与重复。其次，生成每条长达数千字的智能体推理轨迹消耗了近十五亿令牌的计算资源，要求合成过程在保持结构密度与专业严谨性的同时，模拟真实专家的内部审议流程。这些挑战共同指向了合成数据工程在规模、质量与成本之间的平衡难题。

常用场景

经典使用场景

在边缘智能与分布式代理架构中，该数据集被广泛用于训练小型本地模型执行高级问题解构与自我意识推理。其核心场景涉及模型作为“预备路由器”或“系统二思考代理”，当面对复杂、领域特定的指令时，代理会系统性地分解请求，识别知识缺口，并构建专家级网络搜索查询，从而为后续更强大的前沿模型提供精确验证的上下文，以无瑕疵地执行最终任务。

解决学术问题

该数据集旨在解决大型语言模型在分布式代理架构中的过度自信与幻觉问题。通过强制模型进行自我审计与验证规划，它训练模型区分已知信息与不确定假设，将不确定性转化为外部验证的触发信号。这直接应对了模型在缺乏局部上下文时盲目执行指令的低效性，提升了检索增强生成系统中查询生成的精确度与提示拦截的鲁棒性，为小参数模型在复杂推理任务中的可靠性奠定了理论基础。

衍生相关工作

基于该数据集衍生的经典工作主要集中在推理微调与多智能体协同架构。例如，研究团队利用其五阶段推理结构开发了新型检索增强生成路由器，能够生成密集、技术性的搜索查询而非简单关键词匹配。此外，该数据集也催生了针对7B-14B参数模型的系统二思维训练框架，这些框架通过模拟专家级审议过程，显著提升了模型在零样本泛化与自我验证方面的性能，为边缘AI的自治推理开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集