Experimental Multimodal Soft-Fault Dataset Benchmark
收藏github2026-04-29 更新2026-04-30 收录
下载链接:
https://github.com/cobalt133/experimental-multimodal-soft-fault-dataset-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于相干光传输系统中软故障研究的独立公共数据集。它包含来自受控实验的3463个接收端捕获数据,每个样本具有34个结构化信号特征和四个对齐的时间序列张量模态。
This is an independent public dataset dedicated to research on soft failures in coherent optical transmission systems. It contains 3463 receiver-captured data samples from controlled experiments, with each sample having 34 structured signal features and four aligned time-series tensor modalities.
创建时间:
2026-04-22
原始信息汇总
好的,这是根据您提供的数据集详情页面和README文件内容整理的数据集概述。
数据集概述
本数据集是一个用于相干光传输系统中软故障研究的独立公共数据集。
核心数据
- 样本数量:包含 3,463 个来自受控实验的接收端捕获样本。
- 数据特征:每个样本包含 34 个结构化信号特征,以及四个对齐的时间序列张量模态。
- 任务类型:支持四分类和五分类任务。
- 四分类标签:
normal(正常)、wss(波长选择开关相关故障)、attenuation(衰减故障)和edfa(掺铒光纤放大器故障)。 - 五分类标签:将
wss细分为wss_offset(中心频率偏移)和wss_bandwidth(带宽变化)。
- 四分类标签:
快速开始
- CSV 入口:推荐从 CSV 文件
easy_start/structured_4class.csv开始,该文件包含样本 ID、34个结构化特征和故障标签。 - 运行示例:通过命令
pip install -r requirements.txt和python easy_start/quick_start_structured.py可直接运行一个简单的结构化特征示例。 - 附加表格:还提供了包含实验条件(如距离、调制格式、故障严重程度等)的 CSV 文件,方便进行自定义分析。可以通过
sample_id和record_id将特征数据与条件数据合并。
仓库结构
metadata/:包含所有 3,463 个捕获样本的索引信息。tabular/:完整的结构化特征导出文件。tensors/:完整的张量索引和时间序列张量数据分片。loaders/:提供 Python 和 MATLAB 的加载辅助代码。easy_start/:CSV 格式的快速入门文件。feature_schema.yaml、label_schema.yaml和dataset_card.md:数据集文档。
时间序列张量
- 存储方式:由于单个文件超过 GitHub 的 100 MB 限制,张量文件
tensors/time_series_full_v1/shard_0001.h5被分割为三个部分(part-00,part-01,part-02)。 - 重建方法:克隆仓库后,运行脚本
bash scripts/rebuild_tensor_shard.sh即可重建完整的张量文件,该脚本会验证文件的 SHA-256 校验和。
加载方式
-
Python 加载器:提供了
PublicBenchmark类,可方便地加载样本、结构化特征和时间序列数据。python from loaders.python.dataset import PublicBenchmark
ds = PublicBenchmark(".") samples = ds.samples() features = ds.structured_features()
如需使用张量数据,需先运行重建脚本
bash scripts/rebuild_tensor_shard.sh
example = ds.load_time_series(0)
搜集汇总
数据集介绍

构建方式
该数据集是针对相干光传输系统中软故障研究的独立公开基准,通过受控实验采集了3463个接收端样本。每个样本包含34个结构化信号特征及四类对齐的时间序列张量模态,故障标签涵盖正常、波长选择开关异常、衰减器异常及掺铒光纤放大器异常四种类别。数据以简易CSV表格为核心入口,同时提供张量数据与可复现性资源以支持深入分析。
使用方法
使用该数据集可从简易CSV表入手,通过样本标识符与记录ID关联特征表与实验条件表,开展结构化基线实验。Python用户可通过提供的加载器类(PublicBenchmark)直接访问样本、结构化特征及时间序列数据,Matlab用户亦可调用对应加载器。需注意大型张量文件需先运行脚本合并拆分部分并验证完整性,而后通过加载器按索引加载特定样本的时序数据。
背景与挑战
背景概述
在相干光传输系统的故障诊断领域,软故障(如光放大器增益异常、波长选择开关偏移等)因其隐蔽性强、影响非致命却显著劣化传输质量而成为研究难点。现有数据集多聚焦于硬故障或单一模态特征,缺乏同时涵盖结构化特征与多维时序张量的公开基准。为此,由跨机构研究团队于近年创建的Experimental Multimodal Soft-Fault Dataset Benchmark应运而生。该数据集包含3463组受控实验采集的接收端样本,整合了34维结构化信号特征与四维对齐的时序张量模态,覆盖正常、波长选择开关故障、衰减故障及光放大器故障四类场景。其核心研究问题在于推动多模态数据融合的软故障检测与分类算法发展。凭借完备的元数据、多粒度特征表及可复现性工具,该数据集已成为相干光传输软故障研究的重要标准化测试平台,显著降低了领域内算法比较的门槛。
当前挑战
当前该数据集所解决的领域挑战主要集中于软故障的细粒度识别与多模态特征融合。传统单模态检测方法难以区分症状相似的软故障类型,例如衰减故障与光放大器故障在部分信号特征上高度重叠。数据集通过提供同步的结构化表格与时序张量,促使研究者开发跨模态表征学习方法,以突破单一特征空间的歧义性瓶颈。构建过程中亦面临显著挑战:实验需在精确控制光纤距离、调制格式及激光器功率等参数的同时,模拟真实场景下的故障注入,确保数据分布的代表性;此外,高维时序张量(单样本包含多通道相干接收信号)的存储与跨平台兼容性要求苛刻——由于单个H5文件超过GitHub的100MB限制,团队不得不采用分片压缩与SHA-256校验方案,并配套Python与MATLAB加载器,以平衡数据完整性与分发效率。
常用场景
经典使用场景
在相干光通信系统的软故障研究中,该数据集扮演着基准测试的核心角色。研究人员可借助其提供的结构化CSV表格与多模态时间序列张量数据,构建并验证针对正常、WSS偏移、衰减及EDFA异常四类状态的分类与检测模型。典型实验流程包括利用34维结构化特征进行轻量级基线对比,或结合完整的四维时间序列张量开展深度学习驱动的故障识别,从而评估不同算法在软故障诊断任务上的性能优劣。
解决学术问题
该数据集直面相干光传输系统中软故障检测与分类这一关键学术挑战。传统研究常受限于私有数据或单一模态特征,难以进行跨方法公平比较。本数据集通过提供3463例受控实验下的多模态标准化样本,系统性地支持了故障类型判别、特征重要性分析以及严重程度量化等研究,为光网络智能运维领域的可复现基准构建奠定了坚实基础,显著推动了故障诊断方法论的科学化进程。
实际应用
在实际部署中,该数据集支撑着光通信网络运维的自动化与智能化升级。基于其标注样本训练的模型可实时监测光纤链路状态,精准识别由器件老化或配置不当引起的软故障,从而降低误警率与漏检率。运营团队能借此优化维护策略,在故障恶化前实施预防性干预,保障骨干网与数据中心互连的高可用性。其结构化特征与非结构化张量的双接口设计,更兼容了边缘计算与云端分析的不同部署场景。
数据集最近研究
最新研究方向
实验性多模态软故障数据集基准的最新研究聚焦于利用结构化特征与时间序列张量数据的融合,推动相干光传输系统中软故障检测与分类的范式演进。该数据集通过精细控制的实验设置,覆盖正常、波长选择开关、衰减及掺铒光纤放大器等关键故障类型,并配备多模态对齐数据,为可解释深度学习、跨域迁移学习及实时监控系统的开发提供了标准化测试平台。其在光通信网络智能化运维领域的应用,正促使业界从传统阈值报警向数据驱动的根因分析与预测性维护转型,显著降低服务中断风险与运营成本。
以上内容由遇见数据集搜集并总结生成



