CloudPrice Datasets

github2026-03-28 更新2026-03-29 收录

下载链接：

https://github.com/cloudprice/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

机器可读的AI模型目录，包含65个提供商的价格信息。每日更新。

Machine-readable AI model catalog containing pricing information from 65 providers, updated daily.

创建时间：

2026-03-27

原始信息汇总

CloudPrice Datasets 数据集概述

数据集基本信息

数据集名称：CloudPrice Datasets
核心内容：包含65个提供商AI模型目录及其定价信息的机器可读数据集。
更新频率：每日更新。
数据文件：models.json（约7 MB），包含完整的模型目录、提供商和定价信息。

数据规模与覆盖范围

总模型数：2122个（2100+）
已定价模型数：1113个（1100+）
提供商总数：65个
已定价提供商数：51个
映射的LiteLLM ID数：2500+
数据源数量：26个

数据结构

数据集采用JSON格式，顶层结构包含以下字段：

schema_version：模式版本（例如“1”）
generated_at：数据生成时间戳（例如“2026-03-27T16:52:29Z”）
stats：统计信息，包括total_models（总模型数）和priced_models（已定价模型数）
models：模型对象数组
providers：提供商对象数组

模型对象关键字段

id：稳定的规范ID
display_name：显示名称
description：描述
creator：创建组织
family：模型系列
tier：层级
version：版本号
type：模型类型（如语言、嵌入、图像生成等）
size_in_bn：参数数量（十亿计）
modalities：输入/输出模态
context_window：上下文窗口（token数）
max_output_tokens：最大输出token数
knowledge_cutoff：知识截止日期
training_data_cutoff：训练数据截止日期
tokenizer：分词器家族
litellm_ids：已知的LiteLLM路由ID列表
parameter_defaults：默认推理参数
lifecycle：生命周期信息（发布日期、最早弃用日期、是否弃用）
capabilities：功能支持（如函数调用、结构化输出、推理等）
benchmarks：基准测试信息
has_pricing：是否有定价
hf_likes、hf_downloads等Hugging Face相关指标
providers：每个提供商的部署信息和定价列表

模型类型

language：文本输入/输出语言模型
embedding：向量嵌入模型
image-generation：文本到图像生成
image-to-text：视觉/图像描述
video-generation：文本/图像到视频生成
text-to-speech：文本到语音
speech-to-text：自动语音识别/转录
reranking：交叉编码器重排序器
moderation：内容分类器

每个模型的提供商条目关键字段

id：提供商ID
name：提供商名称
api_base_url：API基础URL
openai_compatible：是否与OpenAI兼容
model_ids：模型ID列表
launch_stage：发布阶段（稳定、预览、有限预览）
inference_types：推理类型（按需、预置等）
regions：可用区域列表
lifecycle：生命周期信息
pricing：定价信息列表

定价信息

定价维度：包括输入、输出、缓存读取、缓存写入、音频输入、音频输出、图像输入、图像输出、视频输入等。
定价单位：包括每百万token、每图像、每秒、每千字符、每次查询、每页、每次请求等。
定价条目字段：包括层级、维度、价格、单位、高于token数（用于分层定价）、定价模式、来源ID、生效日期。

提供商对象关键字段

id：提供商ID
name：提供商名称
description：描述
url：网站URL
api_base_url：API基础URL
docs_url：文档URL
pricing_url：定价页面URL
input_modalities：输入模态列表
output_modalities：输出模态列表
modalities：模态列表
tags：标签列表
hosts_platform：是否托管平台
own_models：是否拥有自有模型
openai_compatible：是否与OpenAI兼容
litellm_provider：LiteLLM提供商列表
model_count：模型数量
priced_model_count：已定价模型数量
price_row_count：定价行数
pricing_tiers：定价层级列表
pricing_dimensions：定价维度列表
pricing_source_ids：定价来源ID列表

数据访问

JSON文件地址：https://raw.githubusercontent.com/cloudprice/data/main/models.json
快速开始示例：提供了JavaScript和Python的代码示例，演示如何获取和解析数据。

许可证

数据从公共提供商文档和API聚合而来。许可证信息见LICENSE文件。

相关资源

交互式UI：https://cloudprice.net/models

搜集汇总

数据集介绍

构建方式

在人工智能模型服务日益普及的背景下，CloudPrice数据集通过系统化地整合公开信息，构建了一个覆盖广泛的模型定价目录。该数据集每日自动从65家云服务提供商的官方文档和API中抓取数据，确保信息的时效性与准确性。构建过程采用稳定的规范化流程，为每个模型生成唯一的规范标识符，并映射多种第三方路由ID，从而形成结构化的JSON数据文件。

使用方法

用户可通过简单的HTTP请求直接获取数据文件，并利用主流编程语言进行解析与集成。数据集采用清晰的顶层结构设计，包含模型列表、提供商信息及统计元数据，便于快速检索与比对。开发者可依据模型ID、提供商或定价维度进行筛选，实现成本模拟、服务选型或市场分析等应用，数据每日更新机制确保了决策依据的实时性。

背景与挑战

背景概述

随着人工智能模型即服务（MaaS）市场的迅猛发展，模型定价信息的分散性与动态性成为行业决策的显著障碍。CloudPrice Datasets由相关研究团队于近期构建，旨在通过机器可读的标准化格式，系统化地整合全球65家云服务提供商超过2100个AI模型的详细目录与实时定价数据。该数据集的核心研究问题聚焦于解决市场透明度不足的问题，为成本优化、供应商比较及资源规划提供关键数据支撑，对云计算经济学与AI部署策略领域产生了实质性影响，推动了数据驱动的决策范式。

当前挑战

该数据集致力于解决AI模型服务市场中定价信息不透明与比较困难的挑战，其核心在于应对多源异构数据的动态整合与标准化难题。具体而言，构建过程面临诸多挑战：首先，需从数十家提供商的公开文档与API中持续抓取并解析结构各异的定价信息，确保数据的准确性与时效性；其次，必须设计统一的元数据架构，以涵盖语言、嵌入、图像生成等多种模型类型，并兼容输入、输出、缓存等复杂的计费维度；最后，维护模型ID的稳定映射与每日更新机制，以跟踪频繁的价格变动与产品生命周期，这要求高度的自动化与验证流程来保障数据质量。

常用场景

经典使用场景

在人工智能模型服务市场日益复杂的背景下，CloudPrice Datasets为研究者和开发者提供了一个标准化的模型定价与元数据目录。该数据集最经典的使用场景在于支持跨云服务提供商的成本分析与优化研究。通过整合超过65家供应商的2100多个模型信息，包括详细的定价维度、上下文窗口和功能特性，研究人员能够系统性地比较不同模型在性能与成本之间的权衡，从而为模型选择与部署策略提供数据驱动的决策依据。

解决学术问题

该数据集有效解决了人工智能经济学领域中的多个核心学术问题。它通过机器可读的标准化格式，消除了云模型市场信息碎片化带来的研究障碍，使得学者能够深入探究模型定价机制、市场竞争动态以及资源分配效率。数据集提供的每日更新定价与生命周期信息，为研究模型折旧、技术迭代对市场结构的影响提供了实时数据基础，推动了人工智能服务定价理论与实证研究的发展。

实际应用

在实际应用层面，CloudPrice Datasets已成为企业架构师和运维团队不可或缺的工具。工程团队利用数据集中的定价模型和区域部署信息，自动化计算不同应用场景下的推理成本，优化多云和混合云架构的预算分配。例如，在构建大型语言模型应用时，开发者可以依据输入输出令牌、缓存读写等细粒度定价维度，精确预测API调用成本，并设计出成本效益最优的模型路由与负载均衡策略。

数据集最近研究