five

preflight-dataset-v0_1

收藏
Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/x402station/preflight-dataset-v0_1
下载链接
链接失效反馈
官方服务:
资源简介:
x402station.io Preflight Dataset v0.1 是一个来自x402智能体商务网络的聚合探针数据集的周度公开快照。该数据集旨在提供端点级别的聚合健康与风险信号,用于引用、可复现性、生态系统分析以及轻量级智能体路由研究,同时不暴露支撑付费API的原始逐探针时间序列数据。数据集以表格形式呈现,包含约1万至10万行数据,涵盖26个字段。核心字段包括端点URL和主机名、服务标识和名称、提供商标识和类别、基于启发式规则的主要分类(如live、dead、zombie、slow等)及其触发原因列表、端点首次和最近探测时间、过去30天的总探针数、可用性百分比、延迟百分位数(P50、P95、P99)、当前公开目录价格信息(金额和货币)、来自Coinbase CDP Bazaar的30天结算计数和唯一付款人数量、最后结算和同步时间戳、是否包含免费试用标识以及快照生成时间。数据通过x402station.io对每个已索引的x402端点进行约10分钟一次的HTTP裸调用(无支付签名)探测收集,并聚合为端点级别的统计信息。该数据集适用于表格分类任务,特别是智能体商务网络中的端点健康状态监测、风险信号识别和路由决策支持研究。数据集遵循CC-BY-4.0许可,并建议在后续使用中引用x402station.io和该数据集URL。

x402station.io Preflight Dataset v0.1 is a weekly public snapshot of aggregated probe data from the x402 agent commerce network. This dataset aims to provide endpoint-level aggregated health and risk signals for reference, reproducibility, ecosystem analysis, and lightweight agent routing research, without exposing the raw per-probe time series data that supports paid APIs. The dataset is presented in tabular form, containing approximately 10,000 to 100,000 rows of data across 26 fields. Key fields include endpoint URL and hostname, service identifier and name, provider identifier and category, primary classification based on heuristic rules (e.g., live, dead, zombie, slow) and their trigger reason lists, endpoint first and latest probe times, total probe count over the past 30 days, availability percentage, latency percentiles (P50, P95, P99), current public directory price information (amount and currency), 30-day settlement count and unique payer count from Coinbase CDP Bazaar, last settlement and synchronization timestamps, free trial inclusion flag, and snapshot generation time. Data is collected through HTTP bare calls (without payment signatures) by x402station.io, probing each indexed x402 endpoint approximately every 10 minutes, and aggregated into endpoint-level statistics. The dataset is suitable for tabular classification tasks, particularly for monitoring endpoint health status, identifying risk signals, and supporting routing decision research in agent commerce networks. It is licensed under CC-BY-4.0, with recommended citations to x402station.io and the dataset URL.
创建时间:
2026-05-11
原始信息汇总

数据集概述

数据集名称: x402station.io Preflight Dataset v0.1
数据集地址: https://huggingface.co/datasets/x402station/preflight-dataset-v0_1
许可证: CC-BY-4.0
语言: 英语
数据集规模: 10K < n < 100K
任务类别: 表格分类


数据集描述

该数据集是 x402 代理商务网络中端点级别的聚合健康与风险信号的公开周度快照,主要用于引用、再现性、生态系统分析以及轻量级代理路由研究。数据来源于 x402station.io 的 Preflight 服务,但仅包含聚合后的端点级数据,不暴露原始逐探针时间序列。

数据文件

文件 格式 说明
data/preflight_dataset_v0_1.csv CSV 便携式表格快照
data/preflight_dataset_v0_1.jsonl JSONL 相同行数据,classification_reasons 字段为数组
dataset_manifest.json JSON 导出元数据、行数、文件路径及边界策略

数据模式

列名 类型 描述
endpoint_url string 或 null 公共端点 URL(当不包含查询、用户信息、片段或敏感路径时)
endpoint_hostname string 每一行保留的主机名,在 endpoint_url 被遮蔽时使用
endpoint_url_redacted boolean 是否遮蔽了完整 URL
redaction_reason string 或 null 遮蔽原因(以竖线分隔):userinfo, query_params, fragment, sensitive_path_segment
service_id string 公共目录中的 x402station 服务标识符
service_name string 或 null 服务显示名称
provider string 或 null 提供者/域名分组,用于集中度检查
category string 或 null 目录类别(如有上游提供)
classification string 主要分类标签
classification_reasons array 或 pipe-separated string 所有触发的分类标签集合
first_seen_at ISO 8601 或 null x402station.io 首次发现端点的时间
last_probe_at ISO 8601 或 null 聚合窗口内最近的探针时间
total_probes_30d integer 过去30天内的HTTP裸探针数量
uptime_30d_pct number 或 null 过去30天内返回 HTTP 200 或 402 的探针百分比
latency_p50_ms integer 或 null 过去30天内的50分位延迟
latency_p95_ms integer 或 null 过去30天内的95分位延迟
latency_p99_ms integer 或 null 过去30天内的99分位延迟
price_amount_usdc number 或 null 当前公开目录价格(归一化为 USDC)
price_currency string 或 null 当前公开目录货币
cdp_l30d_calls integer 或 null Coinbase CDP Bazaar 过去30天结算次数
cdp_l30d_unique_payers integer 或 null Coinbase CDP Bazaar 过去30天唯一付款人数量
cdp_last_called_at ISO 8601 或 null 最后一次 CDP 观测到的结算调用时间
cdp_last_synced_at ISO 8601 或 null 最后一次 CDP 同步时间
has_free_trial boolean 或 null CDP 是否报告存在免费试用路径
generated_at ISO 8601 快照生成时间戳

探针方法

x402station.io 以约10分钟为间隔对每个已索引的 x402 端点进行探针。探针为 HTTP 裸调用(不包含 PAYMENT-SIGNATURE、不进行付费结算、不尝试消费受保护内容),记录可用性证据(状态码、网络故障、延迟等)。本数据集仅包含端点级聚合数据,不包含逐探针数据、响应体、支付签名、钱包标识、webhook 负载或每次请求的时间序列。

分类规则

分类标签 判断规则
live 无其他分类标签触发。需结合 total_probes_30dlast_probe_at 验证
decoy_price_extreme 当前价格至少 1000 USDC
zombie 过去1小时内至少3次探针且无健康响应
dead 过去30分钟内至少3次不健康探针
dead_7d 7天内至少20次探针且无健康响应
mostly_dead 7天内至少20次探针,可用性低于50%
never_paid_zombie CDP 已同步、过去30天无结算调用、无历史调用时间戳、端点已存在超过30天
new_provider 服务首次被发现距导出时间不足24小时
slow 过去1小时平均延迟至少2000 ms,或过去30天 P99 延迟至少5000 ms
price_outlier_high 当前价格至少是提供者/域名组中位数的10倍
high_concentration 提供者/域名组占活跃目录端点的至少5%

当多个标签同时触发时,classification 字段为最高优先级标签,classification_reasons 字段列出所有触发的标签。

刷新频率

计划为每周快照刷新。生产环境下的实时判定、批量检查及 SLA 行为建议使用付费 Preflight API。

边界策略

  • 开放: 端点级聚合统计、公开目录元数据、分类标签、CDP Bazaar 同步的结算次数和最近结算时间聚合。
  • 受限: 原始逐探针时间序列、每次探针响应详情、付费 API 的实时性、批量路由检查、webhook 监控和 SLA 相关内容。

引用格式

纯文本引用:

x402station.io. x402station.io Preflight Dataset v0.1: aggregated probe data from the x402 agentic-commerce network. Hugging Face Datasets, 2026. https://huggingface.co/datasets/x402station/preflight-dataset-v0_1

BibTeX 引用: bibtex @dataset{x402station_preflight_dataset_v0_1, title = {x402station.io Preflight Dataset v0.1}, author = {{x402station.io}}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/x402station/preflight-dataset-v0_1}, license = {CC-BY-4.0}, note = {Aggregated probe data from the x402 agentic-commerce network} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自x402station.io代理商业网络中周期性探针监测的聚合结果。x402网络中的每个端点均以约10分钟一次的频率接受HTTP裸调用探测,探测过程不包含支付签名、结算请求或受保护内容的消费行为,仅收集可用性状态、网络故障与延迟等宏观信号。原始探针级时序数据被严格排除,仅保留端点级别的30天聚合统计,包括探针总数、健康响应比例、延迟分位数及当前价格等信息,并以CSV与JSONL两种格式发布,辅以元数据清单文件记录导出边界与行数等信息。
使用方法
该数据集可直接用于端点健康态势分析、代理路由策略研究及代理商业生态系统的横向比较。用户可通过加载CSV或JSONL文件获取每行记录的端点URL、主机名、分类标签、探针计数、延迟分位数及价格等信息,借助分类原因字段理解多标签判定的完整逻辑。建议在使用前结合开源信号词汇规范(https://x402station.io/spec#signals)理解各分类的触发条件。该数据集以CC-BY-4.0许可发布,引用时应注明x402station.io及数据集URL,适用于学术引用与轻量级路由仿真实验。
背景与挑战
背景概述
随着人工智能代理(AI Agent)在去中心化商业网络中的广泛应用,如何确保代理系统在支付环节的安全性与可靠性成为关键议题。x402station.io Preflight Dataset v0.1由x402station.io团队于2026年发布,旨在为代理型商业(Agentic Commerce)网络中的端点监控与支付安全提供标准化数据支撑。该数据集聚焦于x402协议下的端点健康与风险信号聚合,通过提供轻量级的端点级分类标签(如存活、僵尸、死亡、价格异常等)与聚合度量(如30天可用性、延迟分位数),支持可复现的生态系统分析、代理路由研究及轻量级基准测试。作为首个公开的x402网络探针聚合数据集,它为研究HTTP 402支付协商机制下的服务发现与故障诊断奠定了基础,对去中心化支付基础设施的鲁棒性评估具有重要意义。
当前挑战
该数据集所解决的领域问题核心在于支付协商型网络中的端点状态动态评估与风险量化。在代理型商业场景下,端点可能因价格异常、响应缓慢、服务中断或支付渠道失效而失效,传统静态监控无法捕获这类高速变化的复合风险。构建过程中面临的主要挑战包括:1)需在保护隐私的前提下公开有用信息,数据集采取边界策略,舍弃原始探针时间序列、支付签名及钱包标识等敏感数据;2)设计多维度分类启发式规则(如僵尸、价格极端、高浓度分布),需平衡误报率与召回率;3)跨数据源融合(如CDP Bazaar结算数据)存在时间戳对齐与质量同步问题;4)维持每周快照的可重复性与生产API实时性之间的语义差距,避免下游研究误解。
常用场景
经典使用场景
在自主代理商务生态系统中,端点健康与风险的实时评估是保障交易安全与系统可靠性的核心环节。preflight-dataset-v0.1数据集作为x402代理商务网络的公开探针聚合快照,为研究者提供了丰富的端点级健康信号与分类标签。其最经典的使用场景集中于端点路由决策与代理行为模拟研究,研究人员可利用该数据集训练分类模型,以区分活跃端点、僵尸端点、价格异常端点及高浓度服务提供商等类别,进而优化代理在分布式网络中的请求路由策略。该数据集的十一种细粒度分类标签与多维聚合指标,使其成为端点状态评估、服务质量预测及网络拓扑分析的理想基准资源。
解决学术问题
该数据集的核心学术贡献在于填补了自主代理商务网络中端点健康评估与风险分类的系统性研究空白。传统网络监测数据集往往缺乏针对代理驱动支付场景的专有分类体系,而preflight-dataset-v0.1通过定义live、zombie、dead、price_outlier_high等十一类语义明确的端点状态,首次为agentic-commerce领域提供了可复现的基准分类框架。它解决了端点可靠性量化、价格异常检测、服务提供商集中度分析等关键学术问题,使研究者得以从聚合探针数据中提取可信的信号特征,规避隐私敏感信息,从而推动代理路由算法、端点健康预测模型及分布式系统容错机制的理论发展。该数据集的存在促进了agentic-commerce研究从定性分析向定量建模的范式转变。
实际应用
在产业实践中,该数据集的应用场景贯穿代理商务网络的运营全链路。对于构建生产级自主代理服务的开发者而言,数据集提供的端点分类结果可直接用于智能路由筛选,确保代理仅向活跃且价格合理的端点发起付费请求,显著降低交易失败率与财务损失风险。此外,高浓度与价格异常标签为供应商风险评估提供了量化依据,支持自动化服务降级或迁移决策。该数据集的边界策略设计使其特别适合用于开发轻量级代理监控仪表板、端点健康看板及服务能力报告工具,为中小型代理服务提供商提供了无需部署私有探针基础设施即可获得的网络健康视图,大幅降低了运维复杂度与数据采集成本。
数据集最近研究
最新研究方向
在自主智能体经济(agentic-commerce)的迅猛演进中,端点的健康状态与支付安全性成为系统可靠性的核心瓶颈。preflight-dataset-v0_1作为x402网络的首个公开聚合探针数据集,聚焦于端点级健康信号与风险分类,为轻量化智能体路由研究提供了可复现的基准。其分类体系囊括了僵尸节点、价格异常、高集中度等前沿风险模式,尤其对‘decoy_price_extreme’与‘high_concentration’等标签的界定,敏锐回应了去中心化支付网络中价格操纵与节点垄断的热点关切。通过汇聚30天窗口内的延迟、可用性与结算数据,该数据集不仅支撑了端点监控的时序聚合分析,更推动了支付安全领域从黑盒评估向可解释分类的范式转变,为构建自主、去中心化的智能体协作网络奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作