five

celljar

收藏
github2026-04-26 更新2026-04-27 收录
下载链接:
https://github.com/mihnathul/celljar
下载链接
链接失效反馈
官方服务:
资源简介:
公共电池单元测试数据,统一并封装在一个模式中(Parquet + JSON)。celljar从9个已发布的来源读取原始文件,并将它们写入一个包含四个实体的规范模式:cell_metadata + test_metadata(JSON),timeseries + cycle_summary(Parquet)。可以通过一个SQL语句查询所有来源(DuckDB / pandas / Polars)。

Public battery cell test data unified and encapsulated under a standardized schema (Parquet + JSON). Celljar reads raw files from 9 published sources, and organizes the data into a standardized schema with four entities: cell_metadata and test_metadata (stored in JSON format), timeseries and cycle_summary (stored in Parquet format). All source data can be queried via a single SQL statement, which is supported by DuckDB, pandas, and Polars.
创建时间:
2026-04-16
原始信息汇总

数据集 celljar 概述

基本信息

  • 数据集名称:celljar
  • 存储位置HuggingFacePyPI
  • 许可证
    • 代码仓库:MIT
    • 标准化数据包:CC-BY-4.0
    • 上游原始数据:各来源保留原有许可证
  • 核心功能:将来自9个公开发布源的电池测试数据,统一转换为一个标准模式(Parquet + JSON)

数据来源

来源 化学体系 电芯数量 测试类型
ORNL Leaf 2013 混合(LMO/NCA 软包) 1 HPPC × 3种温度
HNEI (Kollmeyer) NCA(松下 NCR18650PF) 1 HPPC、驾驶循环、容量检查、循环老化
MATR (Severson 2019) LFP(A123 18650) 119 循环至失效
CLO (Attia 2020) LFP(A123 18650) 45 循环、贝叶斯优化快充
BILLS / eVTOL (Bills 2023) NMC(索尼 US18650VTC6) 22 驾驶循环(飞行任务)+ RPT
MOHTAT (Mohtat 2021) NMC(UMich NMC532 软包) 31 循环老化 + 同步膨胀
NASA PCoE LCO(2.0 Ah 18650) 34 循环老化
SNL Preger 2020 LFP / NMC / NCA 网格(18650) 87 不同温度×放电深度×倍率下的循环老化
Naumann 2018/2020 LFP / 石墨 17日历 + 17循环 日历老化 + 循环老化(仅摘要)

数据模式

数据包含四个实体,通过 cell_idtest_id 关联:

1. cell_metadata.json

  • 硬件信息:化学体系、容量、外形尺寸

2. test_metadata.json

  • 协议、健康状态、来源、许可证

3. timeseries.parquet

  • 每个样本的电压/电流/温度 + 累积库仑计数(∫I dt)

4. cycle_summary.parquet

  • 每个循环的聚合指标(容量、R_DC等),用于老化研究

使用场景

  • 参数标定
  • 建模
  • 老化研究
  • 跨来源分析

不包含:现场/车队遥测数据、基于机器学习的循环寿命预测(推荐使用 BatteryLife (KDD 2025)

查询示例

单次测试的时间序列数据

sql SELECT timestamp_s, voltage_V, current_A, temperature_C FROM data/harmonized/timeseries.parquet WHERE test_id = ORNL_LEAF_2013_HPPC_25C ORDER BY timestamp_s;

跨来源筛选(HPPC测试,温度25°C)

sql SELECT cell_id, test_id, temperature_C_min FROM data/harmonized/tests/*.json WHERE test_type = hppc AND temperature_C_min = 25;

与其他电池数据工具的关系

  • Battery Data Commons:提供300+公开电池数据集的注册索引;celljar为其子集提供标准化数据层
  • Iontech:开源电池监测与建模数据集的精选索引;作为celljar尚未标准化的数据集的发现起点
  • BatteryLife / BatteryML:面向循环寿命预测的机器学习基准;celljar保留物理参数标定(ECM/SPM/DFN)所需的完整V/I/T时间序列

未来计划

  • 增加更多数据来源(CALCE、RWTH、HUST、Tongji、XJTU等)
  • PyPI发布(pip install celljar
  • 健康状态方法迭代
  • BDF导出转换器
搜集汇总
数据集介绍
main_image_url
构建方式
celljar数据集整合自9个公开电池测试数据源,包括ORNL Leaf、HNEI Kollmeyer、MATR等,覆盖多种化学体系和测试条件。该数据集通过统一模式(Parquet + JSON)对原始数据进行清洗与标准化,构建出包含四个实体的规范结构:cell_metadata和test_metadata以JSON格式存储硬件与协议信息,timeseries和cycle_summary以Parquet格式存储时间序列与循环聚合数据。所有数据经单位转换、缺失值显式标记及电流符号约定等处理,确保格式一致。
使用方法
使用celljar数据集极为便捷,用户可直接通过HuggingFace URL远程读取Parquet文件,无需本地克隆。例如,使用DuckDB执行SQL查询即可获取特定测试的时间序列数据。对于需要本地操作的用户,可克隆仓库并安装依赖后,通过Streamlit可视化浏览器交互式探索数据。数据集还支持按cell_id和test_id进行跨源过滤,方便进行交叉比较与针对性分析,适用于参数化建模、老化研究及模型验证等场景。
背景与挑战
背景概述
电池作为能源存储系统的核心组件,其性能退化与状态评估高度依赖于高质量的测试数据。然而,由于不同研究机构采用迥异的实验协议、数据格式及单位体系,导致跨数据源的数据整合与分析面临巨大障碍。celljar数据集应运而生,由Mihna Neerulpan于2026年创建,旨在为公开电池单元测试数据提供一套标准化、统一的模式(Parquet+JSON)。该数据集汇聚了来自ORNL Leaf、HNEI Kollmeyer、MATR等九个权威研究源的数据,并通过严格定义的四实体模式(cell_metadata、test_metadata、timeseries、cycle_summary)实现了数据格式、单位及协议层面的归一化。这一开创性工作不仅显著降低了电池研究领域的数据预处理成本,更打破了数据孤岛,为后续跨源对比、参数辨识及老化研究奠定了坚实的数据基础,对加速电池技术迭代具有深远影响。
当前挑战
celljar数据集的核心挑战在于其致力解决的领域内数据异构性瓶颈。不同来源的电池测试数据在采样频率、测试协议(如HPPC、循环老化)、单位(如电流方向定义)及数据存储格式上存在显著差异,使得跨数据源联合查询与比较几乎不可能,严重阻碍了电池模型的泛化性能与物理参数辨识的精度。此外,构建过程中面临严苛的数据治理挑战:需在保留原始实验科学价值与去除噪声之间谨慎权衡,通过制定通用模式(如SI单位、相对时间戳、显式空值)实现无损映射,同时确保9个源数据的版权归属与引用追溯(通过test_metadata内嵌source_doi)。最后,维持数据集的持续扩展(如接入CALCE、RWTH等新源)与版本控制间的一致性,亦是长期运维的关键难题。
常用场景
经典使用场景
在锂离子电池研究领域,跨数据源的联合分析常受制于格式与单位的不统一。celljar通过将来自ORNL Leaf、HNEI Kollmeyer、MATR等九个公开源的多类型电池测试数据(如HPPC、循环老化、工况驱动)统一为包含cell_metadata、test_metadata、timeseries和cycle_summary四实体的规范模式,支持用户通过单一SQL语句跨源查询。其经典使用场景聚焦于电池建模的参数化过程、老化行为比较以及跨化学体系(LFP、NCA、NMC、LCO)的通用性验证,为研究者提供了一个可直接用于物理模型(ECM/SPM/DFN)参数提取的标准化数据基础。
解决学术问题
该数据集解决了电池研究中长期存在的“数据异构性”瓶颈——不同实验室发布的充放电数据在采样率、单位制、时间戳格式和元数据完整性上差异巨大,导致跨源对比与元分析困难重重。celljar通过无损的格式统一与单位转换,使研究者能够聚焦于科学问题本身而非数据清洗。它推动了大规模老化规律挖掘、跨温度与倍率降解机制对比等议题的深入探讨,尤其为非归一化的元分析提供了可复现的基准,显著提升了电池领域学术研究的可复现性与数据重用效率。
实际应用
在实际工程应用中,celljar为电池管理系统(BMS)开发与快速充电策略设计提供了多源联合验证的测试语料。工程师可直接利用其标准化后的时域曲线进行电池模型的标定,或将循环摘要数据导入机器学习流水线以预测剩余寿命。此外,由于数据集中包含了eVTOL飞行工况和NMC高倍率测试等特殊场景,工业界能够基于真实动态负载谱评估电池在航空航天与电动交通领域的适应性,从而缩短从实验室到产品部署的验证周期。
数据集最近研究
最新研究方向
在电池性能衰退诊断与寿命预测的前沿领域,公开数据集的质量与元数据一致性成为制约模型泛化能力的关键瓶颈。celljar数据集应运而生,其核心创新在于将来自ORNL、HNEI、MATR等9个权威来源的217个锂离子电池测试数据,统一转换为包含元数据、时序数据和循环摘要的标准化模式,彻底解决了因单位不统一、字段命名混乱导致的数据整合难题。这一工作恰逢电池领域向数据驱动范式转型的热点期,例如MATR系列数据已被广泛用于基于机器学习的寿命预测竞赛。celljar提供的跨源联合查询能力,使得研究者能轻松对比不同化学体系、不同测试协议下的电化学特征,为构建更鲁棒的老化模型和新型电解质开发提供了坚实的基础设施支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作