ucp-merchants
收藏Hugging Face2026-04-03 更新2026-04-04 收录
下载链接:
https://huggingface.co/datasets/UCPChecker/ucp-merchants
下载链接
链接失效反馈官方服务:
资源简介:
UCP Merchant Directory 是一个关于电子商务商家及其采用通用商务协议(UCP)状态的数据集,每月更新。UCP 是一个开放标准,允许 AI 代理与在线商店进行交互,包括浏览产品、管理购物车和程序化完成结账。该数据集跟踪哪些商家已实施 UCP 以及它们暴露了哪些功能。
数据集中的每一行代表一个商家域名,仅包含公开验证或检查过的商家。数据列包括商家域名、UCP 状态(如 verified、not_detected 等)、UCP 清单的 URL、HTTP 响应代码、UCP 规范版本、是否支持结账、身份链接、购物车管理、订单管理、支付令牌功能等布尔值字段,以及功能总数、AI 机器人访问策略、支持的传输协议和最后检查时间等。
数据由 UCP Checker 收集,该工具爬取商家并验证其 UCP 清单是否符合发布的规范。数据集每月导出一次,适用于文本分类任务,特别是在电子商务和 AI 购物领域。数据集规模在 1K 到 10K 之间,语言为英语,许可证为 CC BY 4.0。
创建时间:
2026-03-30
原始信息汇总
UCP Merchant Directory 数据集概述
数据集基本信息
- 数据集名称:UCP Merchant Directory
- 许可证:CC BY 4.0
- 任务类别:文本分类
- 主要语言:英语
- 标签:ucp, ecommerce, ai-shopping, commerce
- 数据规模:1K < n < 10K
- 更新频率:每月更新
数据集描述
这是一个关于电子商务商家及其通用商务协议(UCP)采用状态的数据集。UCP是一个开放标准,允许AI智能体与在线商店进行程序化交互,包括浏览产品、管理购物车和完成结账。本数据集追踪了哪些商家已实施UCP以及它们公开了哪些功能。
数据内容与结构
数据集中的每一行代表截至导出日期的一个商家域名。仅包含经过公开验证或检查的商家,排除列表中的域名已被移除。
数据列说明
| 列名 | 类型 | 描述 |
|---|---|---|
domain |
字符串 | 商家域名(例如 example.com) |
status |
字符串 | UCP状态:verified、not_detected、invalid、blocked、unreachable、pending |
ucp_url |
字符串 | 发现UCP清单的URL |
http_status |
整数 | 清单URL的HTTP响应代码 |
version |
字符串 | 清单中声明的UCP规范版本 |
has_checkout |
布尔值 (0/1) | 商家是否公开结账功能 |
has_identity_linking |
布尔值 (0/1) | 商家是否公开身份链接功能 |
has_cart_management |
布尔值 (0/1) | 商家是否公开购物车管理功能 |
has_order |
布尔值 (0/1) | 商家是否公开订单管理功能 |
has_payment_token |
布尔值 (0/1) | 商家是否公开支付令牌功能 |
capability_count |
整数 | 公开的UCP功能总数 |
ai_bot_policies |
JSON字符串 | 来自robots.txt/清单的AI机器人访问策略 |
transports |
JSON字符串 | 支持的传输协议(MCP、REST等) |
last_checked_at |
ISO 8601 | 域名最后一次被检查的时间 |
last_success_at |
ISO 8601 | 域名最后一次返回有效UCP清单的时间 |
状态值说明
- verified:在域名处找到了有效、可解析的UCP清单。
- not_detected:在标准路径未找到UCP清单。
- invalid:找到了清单但验证失败。
- blocked:该域名主动阻止AI/机器人访问。
- unreachable:无法访问该域名。
- pending:已排队等待检查,尚未处理。
数据来源
数据由UCP Checker(https://ucpchecker.com)收集,该工具爬取商家信息并根据已发布的规范验证其UCP清单。检查持续运行,本数据集每月导出一次。
使用许可与引用
- 许可证:数据基于CC BY 4.0许可证发布。署名要求:UCP Checker (ucpchecker.com)。
- 引用格式:
@misc{ucpchecker2026, title = {UCP Merchant Directory}, author = {UCP Checker}, year = {2026}, url = {https://ucpchecker.com} }
搜集汇总
数据集介绍

构建方式
在电子商务领域,UCP商家名录数据集的构建依托于UCP Checker系统的持续爬取与验证机制。该系统定期对商家域名进行扫描,通过访问标准路径下的UCP清单文件,依据公开的UCP规范进行严格验证。数据收集过程仅纳入经过公开验证或人工核查的商家,同时排除预设的不公开列表中的域名,确保数据源的可靠性与时效性。数据集每月导出一次,动态反映商家对通用商务协议的采纳状态及其能力暴露情况。
特点
该数据集的核心特征在于其结构化地记录了商家对通用商务协议的实现细节。每条数据代表一个商家域名,并详细标注其UCP状态,如已验证、未检测或无效等。数据集通过布尔型字段精确刻画商家是否支持结账、身份关联、购物车管理等关键能力,并辅以能力计数、传输协议及机器人访问策略等元数据。这种多维度的表征方式,为分析电子商务生态中AI代理的可交互性提供了精细的粒度。
使用方法
利用该数据集时,研究者可通过加载CSV文件,使用如pandas等工具进行灵活的数据筛选与分析。例如,可快速提取出状态为已验证且支持结账功能的商家,用以评估AI代理完成交易的技术覆盖范围。同时,通过对各能力字段的求和统计,能够直观量化不同UCP功能在商家中的采纳分布。这些操作支持对电子商务基础设施的协议兼容性进行趋势研究和横向对比。
背景与挑战
背景概述
在人工智能与电子商务深度融合的时代背景下,自动化购物代理的交互标准化成为关键研究议题。UCP商户目录数据集应运而生,由UCP Checker机构于2026年创建并持续维护,旨在系统追踪全球电商商户对通用商务协议的采纳情况。该数据集的核心研究问题聚焦于量化分析UCP这一开放标准的实际部署广度与功能深度,为评估AI代理与在线商店程序化交互的生态成熟度提供实证基础,对推动智能商务基础设施的互联互通具有显著影响力。
当前挑战
该数据集致力于解决电子商务领域中AI代理与异构在线商店系统间程序化交互的标准化挑战,其核心在于如何准确评估与比较不同商户对统一协议的功能实现差异。在构建过程中,面临多重技术挑战:需持续爬取与验证全球商户的UCP清单,处理网络可达性、主动屏蔽及清单解析错误等动态数据质量问题;同时,精确界定并标准化‘购物车管理’、‘结账’等复杂商业能力的机器可读表示,亦是确保数据一致性与可比性的关键难点。
常用场景
经典使用场景
在电子商务与人工智能融合的前沿领域,UCP Merchant Directory数据集为研究者和开发者提供了一个关键基准,用于追踪和分析商户对通用商务协议(UCP)的采纳情况。该数据集最经典的使用场景在于评估UCP标准的实施覆盖率与功能完整性,通过定期更新的商户状态与能力数据,支持对AI代理与在线商店交互能力的宏观趋势分析,为协议演进和生态系统健康度监测提供实证基础。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,例如基于商户能力图谱的推荐系统优化、UCP协议安全性审计框架的开发,以及AI代理在受限访问策略(如robots.txt)下的合规交互模型。这些工作不仅深化了对开放商务协议生态的理解,还推动了如MCP(Model Context Protocol)等传输协议的适配性研究,为构建更健壮、可扩展的自动化商务基础设施奠定了基础。
数据集最近研究
最新研究方向
在电子商务与人工智能融合的浪潮中,UCP商户目录数据集为探索AI代理与在线商店的自动化交互提供了关键基础设施。当前研究聚焦于利用该数据集分析商户对通用商务协议的采纳模式,特别是验证状态与功能暴露的关联性,以揭示AI驱动购物生态的成熟度。前沿工作深入挖掘商户的机器人访问策略与传输协议支持,旨在优化AI代理的合规交互框架,并预测协议标准化对跨平台商务自动化的影响。这些研究不仅推动了智能购物代理的算法设计,也为开放标准在商业场景中的落地提供了实证基础,标志着去中心化AI商务接口从概念验证迈向规模化部署的关键阶段。
以上内容由遇见数据集搜集并总结生成



