five

OpenSpecLib

收藏
github2026-04-28 更新2026-05-02 收录
下载链接:
https://github.com/null-jones/openspeclib
下载链接
链接失效反馈
官方服务:
资源简介:
OpenSpecLib是一个开源合并的光谱库和处理工具包,它将来自多个权威来源的光谱测量数据结合到一个统一的、经过模式验证的数据结构中。光谱库是材料识别、遥感和地球化学分析的重要参考数据集。OpenSpecLib通过从多个来源摄取光谱数据,将其标准化为由正式JSON Schema定义的标准数据结构,并生成一个适合下游分析和工具开发的版本化主库,解决了光谱数据碎片化的问题。

OpenSpecLib is an open-source merged spectral library and processing toolkit, which combines spectral measurement data from multiple authoritative sources into a unified, schema-validated data structure. Spectral libraries serve as critical reference datasets for material identification, remote sensing, and geochemical analysis. OpenSpecLib addresses the problem of spectral data fragmentation by ingesting spectral data from multiple sources, standardizing it into a standard data structure defined by a formal JSON Schema, and generating a versioned master library suitable for downstream analysis and tool development.
创建时间:
2026-04-15
原始信息汇总

数据集概述:OpenSpecLib

一、核心定位

OpenSpecLib 是一个开源的融合光谱库与处理工具包,旨在解决多个权威光谱库因文件格式、元数据模式和组织惯例不同而导致的跨库检索、比较和互操作障碍。它将来自多个来源的光谱数据统一到一个由正式 JSON Schema 定义的标准数据结构中,并生成一个版本化的主库。

二、数据来源与规模

当前包含的源库(v0.0.6 版本)
源库名称 包含材料 波长范围 光谱数量
USGS Spectral Library Version 7 矿物、岩石、土壤、植被、水体、人造物 0.2 — 200 微米 ~2,500
ECOSTRESS Spectral Library 矿物、岩石、土壤、植被、人造物、陨石 0.35 — 15.4 微米 ~3,400
EcoSIS(精选子集) 植被、冠层、土壤、水体、城市材料 350 — 2500 纳米 ~27,000

总计:约 33,000 条光谱,来自 3 个源库。

计划包含的源库
  • OSSL — Open Soil Spectral Library(约 80,000 个土壤样本,涵盖 VisNIR 反射率和 MIR 吸收率数据),加载器已实现,计划在后续版本发布。
未来版本计划包含的源库
源库名称 包含材料 波长范围 光谱数量
RELAB Spectral Database 矿物、陨石、月球样本 0.3 — 26 微米 ~3,000
ASU Thermal Emission Spectral Library 造岩矿物(热红外) 5 — 45 微米(2000 — 220 cm-1) ~800
Bishop Spectral Library 碳酸盐、含水矿物、页硅酸盐 0.3 — 25 微米 ~500

三、核心功能

  • 数据标准化与统一:将不同源库的光谱数据归一化为 0–1 单位区间内的反射率值,并融合到统一数据结构中。
  • 浏览器端查看器(无需安装):提供基于 Web 的交互式查看器,支持全文搜索、按材料类别/源库/测量技术/波长范围筛选、绘制单条光谱或构建自定义库、模拟卫星传感器降采样(如 Sentinel-2、Landsat、WorldView-3 等),以及导出为 CSV 或 ENVI .sli/.hdr 格式。
  • 程序化使用:提供 JSON 格式的目录文件和 Parquet 格式的分源光谱数据文件,支持通过 Python、DuckDB、Polars、pandas 等工具进行查询和分析。
  • 命令行工具:提供 openspeclib CLI,用于数据下载、摄取、合并和验证。
  • 版本化发布:通过 GitHub Actions 工作流构建和发布版本化的主库。

四、数据存储结构

采用两层架构:

  1. 目录文件(catalog.json:包含所有光谱的完整元数据索引(不含光谱数组),体积小,可在内存中加载用于搜索和发现。
  2. 分源 Parquet 文件(spectra/{source}.parquet:每条光谱的完整记录,按源库分文件存储,使用 zstd 压缩,支持通过 DuckDB 等工具进行高性能列式查询。
  3. 波长网格注册表(spectra/wavelengths.parquet:存储所有唯一的波长轴,每个波长轴对应一个 grid_id,光谱记录引用此 ID 而非内联存储波长轴,实现数据去重。

每条光谱记录包含以下字段:

  • 源出处信息:库名、版本、DOI、许可证、引用信息。
  • 材料分类:名称、类别、子类别、化学式、可搜索关键词。
  • 样本信息:ID、描述、粒径、来源、制备方法。
  • 测量条件:仪器、技术、实验室、几何配置。
  • 光谱数据:波长轴、值、波段通带、单位信息。
  • 质量指标:坏波段检测、覆盖比例。

五、反射率归一化

OpenSpecLib 假设所有源库的反射率尺度是单位区间的 10 的幂次方倍数(即 {0–1, 0–100, 0–10000} 之一),并在摄取阶段将所有值归一化到 0–1 单位区间。归一化前的源除数(如有)会保留在每条记录的 additional_properties.source_reflectance_divisor 字段中。

六、许可证与引用

  • OpenSpecLib 代码:采用 MIT 许可证
  • 源光谱数据:保留各自源库的原始许可证条款。大多数源库为公共领域,但部分有特定限制(如 Bishop Spectral Library 限制为非商业用途并要求强制引用)。
  • 许可证信息文件:每个版本发布中会附带 licenses.json 文件,提供基于源库标识符的机器可读许可证和引用信息索引。

七、文档与开发

  • 文档目录:包括数据架构规范、处理流程、许可证与引用说明、数据出处、添加新源库指南等。
  • 开发工具:支持 pip 安装,提供测试(pytest)、代码检查(ruff)和模式生成脚本。

八、相关链接

搜集汇总
数据集介绍
main_image_url
构建方式
OpenSpecLib 通过整合来自美国地质调查局(USGS)光谱库第七版、ECOSTRESS光谱库以及EcoSIS数据集的约三万三千条光谱记录,构建了一个统一的开源光谱库。项目采用双层级架构:首先以JSON格式的catalog文件存储所有光谱的元数据索引,随后将完整的光谱数据按来源分别存储为Apache Parquet文件,并经过zstd压缩以优化列式查询性能。所有光谱的反射率数值被归一化至0–1区间,确保跨库数据的可比较性。用户可通过命令行工具自动下载、摄入并整合数据,最终生成经过JSON Schema验证的版本化主库。
使用方法
用户可通过多种方式灵活使用该数据集。最便捷的途径是访问基于浏览器的Web Viewer,无需任何安装即可实现全文搜索、材料类别筛选、光谱绘制与自定义库构建,并支持对Sentinel-2、Landsat等卫星传感器进行波段模拟,结果可导出为CSV或ENVI格式。对于程序化使用,用户可从GitHub Releases下载catalog.json与Parquet文件,利用Python的pyarrow库或DuckDB进行高效数据查询与分析。本地构建则可通过pip安装后,使用openspeclib命令行工具下载源数据、执行摄入与合并流程,最终生成并验证主库。
背景与挑战
背景概述
自遥感与地质分析技术兴起以来,光谱数据库便成为物质识别、地球化学解析与地物分类不可或缺的参照基准。然而,长久以来,主流公开光谱库各自为政,文件格式迥异、元数据架构不统一、组织规范千差万别,致使跨库检索比对与数据融合举步维艰。2024年,由多位领域专家联合创建的OpenSpecLib开源项目应运而生,旨在打破这一壁垒。该数据集汇集了来自USGS光谱库(7版,约2500条光谱)、ECOSTRESS光谱库(约3400条)及EcoSIS精选子集(约27000条)共计约33000条光谱记录,并计划整合RELAB、ASU热发射光谱库及Bishop光谱库等权威资源。通过统一的JSON Schema标准架构与版本化管理机制,OpenSpecLib为遥感科学、行星地质学及环境监测等领域提供了首个高度可互操作的综合性光谱参考基准,显著提升了跨源数据融合与分析效率。
当前挑战
OpenSpecLib所面临的核心挑战集中于光谱数据标准化与跨源融合的深层难题。首先,不同来源的光谱库在反射率量纲定义上存在显著差异,如USGS采用0-1区间、ECOSTRESS采用0-10000区间,单位不统一直接导致跨库分析与可视化失真。为攻克此问题,项目团队设计了归一化至0-1单位区间的自动转换机制,并保留原始量纲除数以追溯来源。其次,各源库文件格式千差万别,涵盖ENVI标准格式、自定义ASCII文本乃至关系型数据库导出结构,构建需兼具可扩展性与容错性的通用加载器成为巨大挑战。此外,许可证兼容性与引用归属问题尤为棘手,如Bishop光谱库明确限制仅非商业用途使用,因此项目需在每版发布中附带机器可读的许可索引(licenses.json)。最后,维持大规模光谱数据的可查询性能与版本追溯机制,同时确保在线查看器的即时渲染效率,亦是持续演进中的技术挑战。
常用场景
经典使用场景
在遥感科学、材料识别与地球化学分析领域,光谱库作为关键参考基准,长期受困于多源数据间格式异构、元数据不一与组织逻辑迥异的碎片化困境。OpenSpecLib通过整合USGS、ECOSTRESS及EcoSIS三大权威光谱库,以统一的JSON Schema标准化数据结构,构建了涵盖约33000条光谱的记录完备、模式统一的版本化主库,为跨库检索与比较研究提供了坚实的数据基底。研究者可借此快速实现矿物、岩石、土壤及植被等典型地类光谱的索引查询与可视化分析,显著降低了光谱数据融合与交互的操作门槛。
解决学术问题
OpenSpecLib直接回应了多源光谱数据互操作性不足的长期学术痛点,通过形式化的数据模型与标准化处理流程,解决了不同光谱库间因测量条件、波长范围与存档格式不一致而导致的跨库联用困难。该数据集促使学者得以在统一尺度下开展地物光谱差异性分析、端元提取与混合像元分解等前沿探索,并借助内嵌的卫星传感器模拟器,在Sentinel-2、Landsat等真实载荷响应框架下验证光谱特征的迁移效力。其意义在于推动光谱计量学与遥感反演研究由单一数据源依赖迈向多源融合、可复现的精确量化范式。
实际应用
在实际应用中,OpenSpecLib为矿产勘探、植被健康监测及环境遥感评估提供了可直接部署的光谱参考依据。用户可以通过浏览器端查看器完成光谱查询、滤波筛选与自建库导出,结合卫星传感器降采样功能,能够高效生成匹配特定任务载荷的模拟光谱数据集。利用其分桶Parquet存储与DuckDB列式查询能力,可无缝嵌入大规模遥感反演流水线,服务于土壤有机碳估算、矿物丰度制图及水生植被动态监测等真实场景,展现出从实验室基准到工程落地的全链路支撑能力。
数据集最近研究
最新研究方向
OpenSpecLib的构建标志着光谱数据整合领域的一项突破性进展,它通过系统性地融合USGS、ECOSTRESS和EcoSIS等权威光谱库,成功破解了长期困扰遥感与地球化学分析的数据碎片化困局。该工具库创新性地采用JSON Schema标准统一异构元数据架构,并借助Apache Parquet列式存储实现高效查询,为跨库光谱比对与矿物识别提供了标准化基础设施。当前研究热点聚焦于将开放光谱库与高光谱卫星传感器模拟(如Sentinel-2、EnMAP)相结合,推动基于先验知识的智能解混与地物分类算法发展,其统一的数据规范有望重塑遥感领域从数据共享到模型复现的生态体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作