five

open_dev_data

收藏
github2026-01-09 更新2026-01-13 收录
下载链接:
https://github.com/whynigela/open-dev-data
下载链接
链接失效反馈
官方服务:
资源简介:
Open Dev Data是一个关于开源区块链、web3、加密货币和去中心化生态系统及其代码存储库的分类法。这个数据集并不完整,并且希望永远不会完成,因为每天都有新的生态系统和存储库被创建。

Open Dev Data is a taxonomy focused on open-source blockchains, Web3, cryptocurrencies, decentralized ecosystems, and their code repositories. This dataset is incomplete, and it is designed to remain so indefinitely, as new ecosystems and repositories are created every day.
创建时间:
2026-01-12
原始信息汇总

Open Dev Data 数据集概述

数据集简介

Open Dev Data 是一个关于开源区块链、Web3、加密货币和去中心化生态系统及其代码仓库的分类法。该数据集不完整,并且随着新生态系统和仓库的每日创建,期望其永远不会完成。

主要用途

该分类法可用于生成特定时间点的加密生态系统集合、其对应的子生态系统和仓库。

使用方式

🖼️ GUI 模式

可通过 Open Dev Data 上的分类法查看器使用。在此可以查询生态系统和仓库,并导出特定生态系统的所有仓库。

💻 CLI 模式

安装

  • 使用 uvx 直接运行:uvx open-dev-data --help
  • 使用 uv 安装:uv tool install open-dev-data,然后运行 open-dev-data --help
  • 从源代码安装:克隆仓库后,使用 uv sync 安装,并通过 uv run open-dev-data --help 运行命令。

可用命令

分类法命令
  • 验证:验证分类法中的所有迁移。 bash open-dev-data validate

  • 导出:将分类法导出为 JSON 格式。 bash open-dev-data export output.jsonl

    导出格式为每行一个 JSON 条目,例如: json {"eco_name":"Bitcoin","branch":["Lightning"],"repo_url":"https://github.com/alexbosworth/balanceofsatoshis","tags":["#developer-tool"]}

数据命令
  • 下载:从 Open Dev Data 清单下载 Parquet 文件。 bash open-dev-data download -o ./data

    下载内容按版本组织(例如 ./data/20251119T124952/)并使用 blake3 校验和进行验证。

  • Duckify:将 Parquet 文件导入 DuckDB 数据库。 bash open-dev-data duckify -i ./data/20251119T124952 -o odd.duckdb

  • TUI:启动由 Harlequin 驱动的交互式 SQL 界面。 bash open-dev-data tui --lite

快速开始示例

完整的工作流程示例如下: bash

1. 下载精简数据集并启动交互式 SQL 界面

uvx open-dev-data tui --lite

或分步操作:

2. 下载所有 Parquet 文件

uvx open-dev-data download -o ./data --resume

3. 导入到 DuckDB

uvx open-dev-data duckify -i ./data/20251119T124952 -o ecosystem.duckdb --show-schema

4. 在交互式 SQL 界面中打开

uvx open-dev-data tui --db ecosystem.duckdb

分类法更新方法

使用包含关键字的领域特定语言(DSL)来更改分类法。通过指定格式为 migrations/YYYY-MM-DDThhmmss_description_of_your_migration 的文件来指定迁移。

数据格式示例

lua -- 使用 ecoadd 关键字添加生态系统。 ecoadd Lightning -- 使用 repadd 关键字向生态系统添加仓库。 repadd Lightning https://github.com/lightningnetwork/lnd #protocol -- 使用 ecocon 关键字连接生态系统。 ecocon Bitcoin Lighting

许可证与归属

双重许可

Open Dev Data 使用双重许可来涵盖不同类型的内容:

代码 - MIT 许可证

本项目中的所有软件代码均根据 MIT 许可证 授权。

数据与文档 - CC BY 4.0

本项目中的所有数据、文档和创意作品均根据 知识共享署名 4.0 国际许可证 (CC BY 4.0) 授权。

如何为 Open Dev Data 注明归属

使用 Open Dev Data 时:

对于代码使用(MIT 许可证):

  • 包含 MIT 许可证副本
  • 注明归属给 Electric Capital

对于数据使用(CC BY 4.0): 归属需包含 3 个部分:

  1. 来源:"Open Dev Data by Electric Capital"
  2. 链接:https://github.com/electric-capital/open-dev-data
  3. 许可证:CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
搜集汇总
数据集介绍
main_image_url
构建方式
在区块链与去中心化技术蓬勃发展的背景下,Open Dev Data 数据集采用了一种动态演进的分类法构建方式。其核心机制依赖于一个基于领域特定语言(DSL)的迁移系统,通过创建按时间戳命名的迁移文件来记录生态系统的增删改。构建过程允许用户使用如 `ecoadd`、`repadd`、`ecocon` 等关键词,以声明式语法定义新的区块链生态系统、关联代码仓库并建立层级关系。这种方法确保了分类法能够随着开源项目的每日涌现而持续更新,其设计理念承认数据集的不完整性,并将其视为反映领域快速变化的动态资产。
使用方法
为满足不同用户的研究与分析需求,数据集提供了多样化的使用途径。研究者可通过官方网站的图形界面进行交互式查询与数据导出。对于程序化分析,命令行工具支持直接安装与运行,核心功能包括数据验证、按生态系统或时间点导出JSON格式分类数据。此外,工具链集成了高效的数据处理流程,用户可下载预处理的Parquet格式数据文件,并利用集成的`duckify`命令将其导入DuckDB数据库进行本地高性能分析。更便捷的是,通过`tui`命令可直接启动一个交互式SQL界面,实现对数据的即时探索与复杂查询,极大降低了数据分析的门槛。
背景与挑战
背景概述
在区块链与去中心化技术蓬勃发展的背景下,开源生态系统的规模与复杂性急剧增长,亟需系统化的数据资源以支持研究与开发。Open Dev Data数据集由Electric Capital于近年创建,旨在构建一个涵盖区块链、Web3、加密货币及去中心化生态系统的开源代码仓库分类体系。该数据集的核心研究问题聚焦于如何动态追踪并结构化呈现不断演进的加密生态系统及其关联仓库,为开发者、研究者及投资者提供标准化的数据基础,从而推动生态透明度与协作效率的提升。
当前挑战
该数据集致力于解决加密生态系统内代码仓库的发现、分类与溯源问题,其挑战在于如何准确界定快速演化的技术边界,并处理跨生态项目的归属关系。在构建过程中,面临的主要挑战包括:动态生态的实时更新需求使得数据完整性难以固化;多源异构仓库的标准化整合需克服命名与标签不一致性;以及维护分类体系的可扩展性以容纳新兴协议与工具。
常用场景
经典使用场景
在区块链与去中心化技术的研究领域,Open Dev Data 数据集常被用于构建和验证生态系统演化模型。研究者通过其分类法,能够精确追踪比特币、以太坊等主流区块链及其子生态(如闪电网络)的代码仓库动态,从而分析开源项目的技术依赖、社区活跃度与创新扩散模式。这一场景为量化评估去中心化网络的健康度提供了结构化数据基础。
解决学术问题
该数据集有效解决了区块链研究中缺乏标准化、可追溯的开源代码仓库索引的难题。它通过统一的分类体系,帮助学者克服数据碎片化障碍,支持对跨生态系统的开发者行为、技术栈演进及协作网络进行纵向比较分析。其意义在于为加密货币与Web3领域的实证研究提供了可复现的数据基础设施,推动了从定性描述到定量验证的学术范式转变。
实际应用
在实际应用中,Open Dev Data 被投资机构与行业分析师用于评估区块链项目的技术成熟度与生态活力。通过导出特定生态的仓库列表并分析提交频率、贡献者分布等指标,从业者可以识别新兴技术趋势、评估开发者社区的可持续性,并为资源分配或风险决策提供数据支撑。其交互式查询与导出功能,使得非技术用户也能便捷地进行生态测绘。
数据集最近研究
最新研究方向
在区块链与去中心化技术迅猛演进的背景下,Open Dev Data作为开源生态系统与代码仓库的精细化分类数据集,正成为量化分析领域的关键基础设施。其前沿研究聚焦于利用该数据集进行生态系统网络结构的动态建模,以揭示不同区块链项目间的技术依赖与协作模式。随着跨链互操作性与模块化区块链架构成为行业热点,研究者们借助该数据集追踪智能合约平台、Layer2解决方案及去中心化应用仓库的演化轨迹,评估技术生态的健壮性与创新扩散路径。这类分析不仅为开发者生态的成长性提供了数据支撑,亦为投资决策与政策制定提供了客观依据,在推动Web3领域透明化与标准化进程中发挥着日益重要的作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作