spectranet
收藏数据集概述
数据集名称:SpectraNet
许可证:其他(研究用途)
任务类别:图像到文本(image-to-text)
语言:英语
标签:光谱学、材料科学、多模态、基准、拉曼光谱、X射线衍射、傅里叶变换红外光谱、质谱、科学推理、基础模型
数据集规模:10,000 < 样本数 < 100,000
数据集描述
SpectraNet 是一个多模态光谱学基准数据集,旨在评估基础模型在科学推理方面的能力。该数据集包含经过整理的实验光谱,涵盖拉曼光谱、X射线衍射(XRD)、傅里叶变换红外光谱(FTIR)和质谱(MS)四种模态,并附有元数据、光谱图像、处理后的光谱数组、峰标注及评估相关输出。它用于评估基础模型是否能感知绘制的实验光谱、提取特征峰并支持基于光谱证据的下游科学推理。
数据集结构
数据集以分片形式发布,完整图像目录包含大量文件。原始结构如下:
spectranet/ ├── public_shards/ # 分片压缩包 │ ├── public_part_0000.zip │ ├── public_part_0001.zip │ └── public_part_0002.zip ├── splits/ │ └── data.csv # 主元数据表 └── manifest.json
解压所有ZIP文件后,恢复的原始公共数据集结构为:
public/ ├── data/ │ └── shards/ # Parquet分片,存储处理后的光谱数组和元数据 │ ├── 00.parquet │ ├── 01.parquet │ └── ... └── images/ # PNG格式光谱预览图 ├── *.png └── ...
文件说明
- public_shards/:包含多个ZIP分片,解压后还原
public/data/和public/images/文件夹。 - public/data/:存储Parquet分片,每条记录包含字段:
sample_id,mid,modality,subkey,x,y,x_unit,y_unit,x_min,x_max,y_min,y_max,n_points。其中x和y字段存储处理后的光谱坐标和强度。 - public/images/:包含PNG格式的光谱预览图,文件名与元数据表中的
sample_id对应。 - splits/data.csv:主要后处理元数据表,每行对应一个处理后的样本,关键列包括:
sample_id,mid,modality,subkey,image_path,data_path,x_min,x_max,y_min,y_max,n_points,x_unit,y_unit,method,measurement_condition,crystal_system,material_name,phase_label,classification,preferred_chemical_formula,source_format,file_path。其中image_path指向public/images/中的图片,data_path指向public/data/shards/中的Parquet分片。
数据重建与加载
- 重建数据集:下载
public_shards/下所有ZIP文件,解压到同一目录即可恢复extracted/public/data/和extracted/public/images/。 - 加载元数据:使用 pandas 读取
splits/data.csv。 - 加载Parquet分片:使用 pandas 读取
public/data/shards/下的Parquet文件。 - 关联图像与数据:通过
data.csv中的image_path和data_path字段进行关联。
许可与引用
-
许可:该数据集仅用于研究目的,具体来源的许可条款请参考原始数据源。
-
引用:如使用 SpectraNet,请引用以下论文:
@article{spectranet2026, title={SpectraNet: A Multimodal Spectroscopy Benchmark for Evaluating Scientific Reasoning in Foundation Models}, author={Gu, Yijun and Yang, Jingyun and Liu, Yongtao and Wang, Haozhe}, year={2026} }




