preflight-dataset-v0_1
收藏数据集概述
数据集名称: x402station.io Preflight Dataset v0.1
数据集地址: https://huggingface.co/datasets/x402station/preflight-dataset-v0_1
许可证: CC-BY-4.0
语言: 英语
数据集规模: 10K < n < 100K
任务类别: 表格分类
数据集描述
该数据集是 x402 代理商务网络中端点级别的聚合健康与风险信号的公开周度快照,主要用于引用、再现性、生态系统分析以及轻量级代理路由研究。数据来源于 x402station.io 的 Preflight 服务,但仅包含聚合后的端点级数据,不暴露原始逐探针时间序列。
数据文件
| 文件 | 格式 | 说明 |
|---|---|---|
data/preflight_dataset_v0_1.csv |
CSV | 便携式表格快照 |
data/preflight_dataset_v0_1.jsonl |
JSONL | 相同行数据,classification_reasons 字段为数组 |
dataset_manifest.json |
JSON | 导出元数据、行数、文件路径及边界策略 |
数据模式
| 列名 | 类型 | 描述 |
|---|---|---|
endpoint_url |
string 或 null | 公共端点 URL(当不包含查询、用户信息、片段或敏感路径时) |
endpoint_hostname |
string | 每一行保留的主机名,在 endpoint_url 被遮蔽时使用 |
endpoint_url_redacted |
boolean | 是否遮蔽了完整 URL |
redaction_reason |
string 或 null | 遮蔽原因(以竖线分隔):userinfo, query_params, fragment, sensitive_path_segment |
service_id |
string | 公共目录中的 x402station 服务标识符 |
service_name |
string 或 null | 服务显示名称 |
provider |
string 或 null | 提供者/域名分组,用于集中度检查 |
category |
string 或 null | 目录类别(如有上游提供) |
classification |
string | 主要分类标签 |
classification_reasons |
array 或 pipe-separated string | 所有触发的分类标签集合 |
first_seen_at |
ISO 8601 或 null | x402station.io 首次发现端点的时间 |
last_probe_at |
ISO 8601 或 null | 聚合窗口内最近的探针时间 |
total_probes_30d |
integer | 过去30天内的HTTP裸探针数量 |
uptime_30d_pct |
number 或 null | 过去30天内返回 HTTP 200 或 402 的探针百分比 |
latency_p50_ms |
integer 或 null | 过去30天内的50分位延迟 |
latency_p95_ms |
integer 或 null | 过去30天内的95分位延迟 |
latency_p99_ms |
integer 或 null | 过去30天内的99分位延迟 |
price_amount_usdc |
number 或 null | 当前公开目录价格(归一化为 USDC) |
price_currency |
string 或 null | 当前公开目录货币 |
cdp_l30d_calls |
integer 或 null | Coinbase CDP Bazaar 过去30天结算次数 |
cdp_l30d_unique_payers |
integer 或 null | Coinbase CDP Bazaar 过去30天唯一付款人数量 |
cdp_last_called_at |
ISO 8601 或 null | 最后一次 CDP 观测到的结算调用时间 |
cdp_last_synced_at |
ISO 8601 或 null | 最后一次 CDP 同步时间 |
has_free_trial |
boolean 或 null | CDP 是否报告存在免费试用路径 |
generated_at |
ISO 8601 | 快照生成时间戳 |
探针方法
x402station.io 以约10分钟为间隔对每个已索引的 x402 端点进行探针。探针为 HTTP 裸调用(不包含 PAYMENT-SIGNATURE、不进行付费结算、不尝试消费受保护内容),记录可用性证据(状态码、网络故障、延迟等)。本数据集仅包含端点级聚合数据,不包含逐探针数据、响应体、支付签名、钱包标识、webhook 负载或每次请求的时间序列。
分类规则
| 分类标签 | 判断规则 |
|---|---|
live |
无其他分类标签触发。需结合 total_probes_30d 和 last_probe_at 验证 |
decoy_price_extreme |
当前价格至少 1000 USDC |
zombie |
过去1小时内至少3次探针且无健康响应 |
dead |
过去30分钟内至少3次不健康探针 |
dead_7d |
7天内至少20次探针且无健康响应 |
mostly_dead |
7天内至少20次探针,可用性低于50% |
never_paid_zombie |
CDP 已同步、过去30天无结算调用、无历史调用时间戳、端点已存在超过30天 |
new_provider |
服务首次被发现距导出时间不足24小时 |
slow |
过去1小时平均延迟至少2000 ms,或过去30天 P99 延迟至少5000 ms |
price_outlier_high |
当前价格至少是提供者/域名组中位数的10倍 |
high_concentration |
提供者/域名组占活跃目录端点的至少5% |
当多个标签同时触发时,classification 字段为最高优先级标签,classification_reasons 字段列出所有触发的标签。
刷新频率
计划为每周快照刷新。生产环境下的实时判定、批量检查及 SLA 行为建议使用付费 Preflight API。
边界策略
- 开放: 端点级聚合统计、公开目录元数据、分类标签、CDP Bazaar 同步的结算次数和最近结算时间聚合。
- 受限: 原始逐探针时间序列、每次探针响应详情、付费 API 的实时性、批量路由检查、webhook 监控和 SLA 相关内容。
引用格式
纯文本引用:
x402station.io. x402station.io Preflight Dataset v0.1: aggregated probe data from the x402 agentic-commerce network. Hugging Face Datasets, 2026. https://huggingface.co/datasets/x402station/preflight-dataset-v0_1
BibTeX 引用: bibtex @dataset{x402station_preflight_dataset_v0_1, title = {x402station.io Preflight Dataset v0.1}, author = {{x402station.io}}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/x402station/preflight-dataset-v0_1}, license = {CC-BY-4.0}, note = {Aggregated probe data from the x402 agentic-commerce network} }




