five

open_dev_data

收藏
github2026-01-09 更新2026-01-15 收录
下载链接:
https://github.com/codex411/open-dev-data
下载链接
链接失效反馈
官方服务:
资源简介:
Open Dev Data是一个关于开源区块链、web3、加密货币和去中心化生态系统及其代码仓库的分类法数据集。这个数据集并不完整,并且希望永远不会完整,因为每天都有新的生态系统和仓库被创建。

Open Dev Data is a taxonomic dataset focused on open-source blockchains, Web3, cryptocurrencies, decentralized ecosystems, and their associated code repositories. This dataset is intentionally incomplete and is designed to remain so, as new ecosystems and code repositories are created on a daily basis.
创建时间:
2026-01-12
原始信息汇总

Open Dev Data 数据集概述

数据集简介

Open Dev Data 是一个关于开源区块链、Web3、加密货币和去中心化生态系统及其代码仓库的分类法。该数据集不完整,并且由于每天都有新的生态系统和仓库被创建,预计它将持续更新。

主要用途

该分类法可用于生成特定时间点的加密生态系统集合、其对应的子生态系统和仓库。

使用方式

🖼️ GUI 模式

可通过 Open Dev Data 网站使用分类法查看器。用户可在此查询生态系统和仓库,并导出特定生态系统的所有仓库。

💻 CLI 模式

安装

可通过 uvx 直接运行 CLI 工具,或使用 uv 安装,亦可从源代码安装。

可用命令

分类法命令
  • 验证:验证分类法中的所有迁移。 bash open-dev-data validate

  • 导出:将分类法导出为 JSON 格式。 bash open-dev-data export output.jsonl

    导出格式为每行一个 JSON 条目,示例如下: json {"eco_name":"Bitcoin","branch":["Lightning"],"repo_url":"https://github.com/alexbosworth/balanceofsatoshis","tags":["#developer-tool"]}

数据命令
  • 下载:从 Open Dev Data 清单下载 Parquet 文件。 bash open-dev-data download -o ./data

    下载内容按版本组织,并使用 blake3 校验和进行验证。

  • Duckify:将 Parquet 文件导入 DuckDB 数据库。 bash open-dev-data duckify -i ./data/20251119T124952 -o odd.duckdb

  • TUI(交互式 SQL 界面):启动由 Harlequin 驱动的交互式 SQL 界面。 bash open-dev-data tui --lite

    该界面提供 SQL 查询编辑器、结果查看器、模式浏览器和查询历史记录。

快速开始示例

完整的工作流程示例如下: bash

1. 下载精简数据集并启动交互式 SQL 界面

uvx open-dev-data tui --lite

或者,进行完整控制:

2. 下载所有 Parquet 文件

uvx open-dev-data download -o ./data --resume

3. 导入 DuckDB

uvx open-dev-data duckify -i ./data/20251119T124952 -o ecosystem.duckdb --show-schema

4. 在交互式 SQL 界面中打开

uvx open-dev-data tui --db ecosystem.duckdb

分类法更新方法

使用包含关键字的领域特定语言(DSL)来更改分类法。通过在 migrations/ 目录下创建格式为 YYYY-MM-DDThhmmss_description_of_your_migration 的文件来指定迁移。

数据格式示例

lua -- 使用 ecoadd 关键字添加生态系统。 ecoadd Lightning -- 使用 repadd 关键字将仓库添加到生态系统。 repadd Lightning https://github.com/lightningnetwork/lnd #protocol -- 使用 ecocon 关键字连接生态系统。 -- 以下将 Lighting 连接为 Bitcoin 的子生态系统。 ecocon Bitcoin Lighting

许可证与归属

双重许可

Open Dev Data 采用双重许可以涵盖不同类型的内容:

代码 - MIT 许可证

本项目中的所有软件代码均根据 MIT 许可证 授权。 包括:所有源代码文件、脚本和构建配置、软件库和模块。

数据和文档 - CC BY 4.0

本项目中的所有数据、文档和创意作品均根据 知识共享署名 4.0 国际许可协议 (CC BY 4.0) 授权。 包括:生态系统分类法数据和 Parquet 文件、文档文件、示例和教程。

如何为 Open Dev Data 提供归属

使用 Open Dev Data 时:

对于代码使用(MIT 许可证):

  • 包含 MIT 许可证副本
  • 注明归属 Electric Capital

对于数据使用(CC BY 4.0): 归属需包含 3 个部分:

  1. 来源:"Open Dev Data by Electric Capital"
  2. 链接:https://github.com/electric-capital/open-dev-data
  3. 许可证:CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)

可选但鼓励的做法: 在归属信息旁附上贡献请求,例如:"If youre working in open source crypto, submit your repository here to be counted."

搜集汇总
数据集介绍
main_image_url
构建方式
在区块链与去中心化技术蓬勃发展的背景下,open_dev_data数据集通过一套精心设计的领域特定语言(DSL)构建其分类体系。该体系以迁移文件为核心,每个文件遵循‘YYYY-MM-DDThhmmss_描述’的命名规范,其中包含诸如‘ecoadd’、‘repadd’和‘ecocon’等关键词指令,用以动态地添加生态系统、关联代码仓库以及建立层级关系。这种基于时间戳的增量式构建方法,确保了分类学能够持续追踪和整合日新月异的开源项目,从而形成一个活态的、可扩展的知识图谱。
特点
该数据集最显著的特点在于其双重属性与灵活的访问模式。它不仅是一个结构化的分类学,清晰勾勒了区块链、Web3及加密货币等生态的层级与归属关系,更是一个附带丰富元数据(如仓库标签)的动态数据集合。用户既可通过直观的图形界面进行在线查询与导出,也能利用命令行工具进行本地化操作,支持从数据验证、导出JSON格式到下载Parquet文件并导入DuckDB数据库的全流程。这种设计兼顾了探索的便捷性与深度分析的性能需求,为研究者提供了多维度的数据切入视角。
使用方法
利用该数据集进行研究或分析,用户可根据需求选择不同的操作路径。对于快速探索,可通过‘tui’命令启动交互式SQL界面,直接对精简版数据集进行查询。若需进行大规模分析,则遵循‘下载-导入-查询’的标准流程:首先使用‘download’命令获取完整的Parquet数据文件,随后通过‘duckify’命令将其载入本地DuckDB数据库,最后即可在该数据库中执行复杂的SQL分析。数据集同时提供了‘export’命令,允许用户按特定生态系统或时间点导出分类学快照为JSON Lines格式,便于与其他数据处理管道集成。
背景与挑战
背景概述
在区块链与去中心化技术迅猛发展的背景下,开源生态系统的复杂性与多样性日益凸显,为系统性追踪与分析带来了显著障碍。Open Dev Data数据集由Electric Capital于近年创建,旨在构建一个动态且结构化的开源区块链、Web3、加密货币及去中心化生态系统代码仓库分类体系。该数据集的核心研究问题聚焦于如何有效映射并组织不断涌现的生态系统及其关联仓库,以支持开发者、研究者与投资者进行生态分析、趋势洞察与资源发现。通过提供标准化的分类与查询工具,它不仅促进了跨生态数据的可访问性与可比性,也为衡量开源活动与技术创新提供了关键基础设施,对推动整个去中心化领域的透明化与协作研究产生了深远影响。
当前挑战
Open Dev Data数据集致力于解决去中心化技术领域中开源生态系统映射与分析的挑战,其核心在于应对生态系统的快速演变与高度碎片化。具体而言,挑战包括如何准确定义并持续更新涵盖区块链、Web3及加密货币等广泛范畴的生态边界,以及如何处理新兴项目与子生态的动态归属关系。在构建过程中,数据集面临数据采集与验证的复杂性,例如从分散的代码托管平台识别相关仓库、确保分类标签的一致性与准确性,并设计可扩展的领域特定语言来管理分类迁移。此外,维护数据的时效性以反映每日新增的生态与仓库,同时保证大规模数据集的可访问性与分析效率,亦是持续性的技术难点。
常用场景
经典使用场景
在区块链与去中心化技术的研究中,Open Dev Data 数据集为学者和开发者提供了一个系统化的开源项目分类框架。其经典使用场景在于通过可扩展的分类法,动态追踪并组织比特币、以太坊等加密货币生态系统及其代码仓库的演化轨迹。研究人员能够利用其图形界面或命令行工具,高效查询特定生态系统的子分支与仓库,并导出结构化数据,从而支撑对开源开发活动的宏观趋势分析。
衍生相关工作
基于 Open Dev Data 的丰富数据,学术界与工业界衍生了一系列经典研究工作。例如,多项研究利用其分类数据构建了区块链开发者贡献网络模型,分析了核心开发者流动对生态系统安全性的影响。此外,该数据集也支撑了关于跨链协议采纳率、去中心化金融(DeFi)项目代码质量与漏洞关联性等前沿课题的实证分析,催生了多篇发表于顶级计算机学术会议的高影响力论文。
数据集最近研究
最新研究方向
在区块链与去中心化技术迅猛发展的背景下,Open Dev Data作为开源生态系统的分类数据集,正成为量化分析领域的关键基础设施。其最新研究聚焦于利用该数据集进行生态系统健康度评估与开发者活动预测,通过整合时间序列数据,追踪不同区块链项目代码库的演化轨迹,识别新兴技术栈的采纳趋势。这一方向与当前行业对去中心化治理和可持续性发展的关注紧密相连,为投资决策、技术路线规划提供了数据驱动的洞察,显著提升了开源生态透明度与协作效率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作