alternative-data
收藏github2026-04-15 更新2026-04-12 收录
下载链接:
https://github.com/Henrywzh/alternative-data
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含多个数据集,主要用于研究和分析替代数据。其中包括OpenRouter排名、应用智能数据和GitHub Trending仓库统计等Python摄取管道。此外,还包括一个提供者采用管道,用于跟踪主要LLM提供商的GitHub、PyPI、npm和Hugging Face信号。数据集包括每周模型使用历史、每周按模型作者划分的令牌份额、每日应用元数据快照、每日应用使用情况、每日应用顶级模型快照、公共应用全球排名快照、公共应用趋势排行榜快照、每日GitHub趋势仓库快照、每日PyPI包下载历史、每日npm包下载历史、每日GitHub仓库候选列表、每日GitHub提供者信号、每日GitHub仓库汇总和每日提供者动量指标等。
This repository contains multiple datasets primarily intended for research and analysis of alternative data. It includes Python ingestion pipelines for resources such as OpenRouter rankings, application intelligence data, and GitHub Trending repository statistics. The datasets cover weekly model usage history, weekly token shares partitioned by model authors, weekly ranking and programming history, and so on. Additionally, they include daily application metadata snapshots, daily application usage data, daily top model snapshots for applications, public application global ranking snapshots, daily GitHub Trending repository snapshots, and daily PyPI package download history, among other relevant contents.
创建时间:
2026-04-04
搜集汇总
数据集介绍

构建方式
在人工智能与开源生态蓬勃发展的背景下,alternative-data数据集通过系统化的多源数据采集管道构建而成。其构建过程依托自动化脚本与定时任务,从OpenRouter平台、应用商店及GitHub等公开渠道持续获取原始数据。具体而言,项目采用模块化设计,通过独立的Python数据摄取管道分别处理模型排名、应用智能数据以及GitHub趋势仓库统计,并利用GitHub Actions实现每日、每周和每月的数据抓取与更新,确保了数据采集的时效性与连贯性。原始数据经过时间戳标记后存储,再通过规范化流程转换为便于分析的CSV与Parquet格式,最终形成结构清晰、版本可控的数据集合。
特点
该数据集的核心特点在于其多维度的覆盖范围与精细的时间粒度。它不仅追踪大型语言模型的周度使用历史与市场份额,还涵盖应用的日常元数据快照与使用情况,并深入捕捉GitHub趋势仓库与PyPI包下载的动态变化。数据集特别设计了面向主流AI服务提供商的采用度信号追踪,通过整合GitHub仓库的清单检测、导入语句分析以及PyPI下载量,构建了反映技术采纳趋势的混合动量指标。这种将模型性能、应用部署与开源生态活动相结合的设计,为研究者提供了观察AI技术实际落地与社区影响力的独特视角。
使用方法
为便于学术研究与行业分析,数据集提供了清晰的使用路径。用户可通过项目提供的命令行工具,执行初始数据回填、定期更新或针对特定日期的数据提取任务。分析人员能够直接访问规范化后的数据文件,利用Parquet等列式存储格式进行高效查询与聚合。此外,项目内置的Streamlit质量看板支持本地部署,允许用户直观验证数据质量与完整性。对于希望复现或扩展分析的研究者,代码库中详尽的工作流配置与模块化设计,使得定制化数据管道或集成新的替代数据源成为可能,从而支撑起从描述性统计到趋势预测的多样化研究需求。
背景与挑战
背景概述
在人工智能与数据科学领域,替代性数据(alternative data)的收集与分析逐渐成为洞察技术趋势与市场动态的关键手段。alternative-data数据集由研究团队于近期创建,旨在通过系统化的数据管道,整合来自OpenRouter排名、应用智能数据及GitHub趋势仓库统计等多源异构信息。该数据集的核心研究问题聚焦于追踪大型语言模型(LLM)提供商的采用情况、模型使用模式以及开源生态的演变轨迹,为学术界与工业界提供了量化评估技术采纳与影响力的实证基础,对推动AI生态系统的透明度与决策科学化具有显著意义。
当前挑战
该数据集致力于解决替代性数据在AI模型评估与生态监测领域的挑战,其核心在于如何从动态、多源且非结构化的数据流中提取稳定、可比较的指标,以准确反映模型性能、提供商市场份额及开发者行为趋势。在构建过程中,面临数据采集的实时性与一致性难题,需处理API限制、数据格式异构及时间序列对齐等问题;同时,确保数据质量与可复现性要求设计鲁棒的管道架构与验证机制,以应对源数据变更与计算资源约束带来的持续挑战。
常用场景
经典使用场景
在人工智能与开源生态研究领域,alternative-data数据集通过系统化采集OpenRouter模型排名、应用智能数据及GitHub趋势仓库统计,为学者提供了动态追踪大语言模型市场演变与开发者行为模式的宝贵资源。其经典使用场景体现在对模型使用历史、市场份额及编程类别排名的周度分析,支持研究者深入探究模型性能与社区采纳度的关联性,从而揭示技术趋势的微观动态。
解决学术问题
该数据集有效解决了大语言模型生态研究中数据稀缺与碎片化的核心难题,通过标准化管道整合多源异构数据,为量化模型采纳率、评估开源项目影响力及分析技术扩散路径提供了实证基础。其意义在于构建了可复现的观测框架,使得学术界能够基于时序数据检验技术生命周期理论,并推动对AI供应链透明度与可持续性的跨学科探讨。
衍生相关工作
围绕该数据集衍生的经典工作包括基于提供商动量指标的生态位分析模型、融合GitHub与PyPI信号的多维度采纳度评估体系,以及针对开源仓库中模型依赖关系的自动化检测框架。这些研究不仅拓展了软件供应链分析的方法论边界,还为AI治理领域提供了监测模型部署与使用模式的新型工具链。
以上内容由遇见数据集搜集并总结生成



