opensre
收藏Hugging Face2026-04-21 更新2026-04-22 收录
下载链接:
https://huggingface.co/datasets/w3joe/opensre
下载链接
链接失效反馈官方服务:
资源简介:
OpenSRE/OpenRCA数据集是一个用于根因分析的基准数据集,包含查询、事件记录、遥测数据(指标、日志、跟踪)以及从每个query.csv文件生成的每行JSON格式的query_alerts。数据集按不同领域(银行、电信、市场)和数据类型(查询、记录)组织成多个配置。遥测CSV文件根据文件类型使用不同的模式,且未合并到Hub子集配置中。原始档案可通过Google Drive获取。数据集还提供了从query.csv文件重新生成query_alerts的脚本命令。
The OpenSRE/OpenRCA dataset is a benchmark dataset for root cause analysis, containing queries, event records, telemetry data (metrics, logs, traces) and query_alerts generated from each query.csv file in JSON format per line. The dataset is organized into multiple configurations by different domains (banking, telecommunications, market) and data types (queries, records). Telemetry CSV files use different schemas according to file types and are not merged into the Hub subset configuration. The original archive is available via Google Drive. The dataset also provides script commands to regenerate query_alerts from query.csv files.
创建时间:
2026-04-17
原始信息汇总
OpenSRE / OpenRCA 数据集概述
数据集基本信息
- 数据集名称:OpenSRE / OpenRCA dataset
- 许可证:mit
- 主要用途:根因分析基准数据
数据集内容与结构
数据集包含查询、事件记录、遥测数据(指标、日志、追踪)以及 query_alerts(从每个 query.csv 行派生的每行 JSON)。
配置与数据文件
数据集通过多个配置进行组织,每个配置对应特定的数据文件:
- bank_query:数据文件为
Bank/query.csv,此为默认配置。 - bank_record:数据文件为
Bank/record.csv。 - telecom_query:数据文件为
Telecom/query.csv。 - telecom_record:数据文件为
Telecom/record.csv。 - market_cloudbed_1_query:数据文件为
Market/cloudbed-1/query.csv。 - market_cloudbed_1_record:数据文件为
Market/cloudbed-1/record.csv。 - market_cloudbed_2_query:数据文件为
Market/cloudbed-2/query.csv。 - market_cloudbed_2_record:数据文件为
Market/cloudbed-2/record.csv。
数据文件说明
- 遥测数据 CSV 文件(指标、日志、追踪)根据文件类型使用不同的模式。
- 这些遥测文件需通过文件路径加载,它们未合并到上述 Hub 子集配置中。
数据来源与处理
- 原始档案:亦描述于 Google Drive。
query_alerts生成:可通过运行python3 scripts/query_csv_to_alert_json.py命令重新生成。
搜集汇总
数据集介绍

构建方式
在根因分析领域,OpenSRE数据集通过系统化采集真实运维场景中的多源数据构建而成。其核心框架整合了查询记录、事件报告及遥测数据三大模块,每个模块均以标准化CSV格式存储,并依据银行、电信、市场等不同行业场景进行子集划分。数据生成过程采用自动化脚本将原始查询记录转化为结构化告警信息,确保了数据转换的一致性与可追溯性。
使用方法
研究者可通过HuggingFace平台按需加载特定行业子集,利用标准数据加载工具读取CSV与JSON格式文件。对于遥测数据等非标准结构文件,建议根据文件路径直接解析原始数据格式。数据集支持通过配套脚本重新生成告警标注,便于进行定制化实验设计,适用于构建基于多模态数据的根因分析模型与评估基准。
背景与挑战
背景概述
OpenSRE数据集作为根因分析领域的基准数据资源,由业界研究团队于近年构建,旨在应对复杂分布式系统中故障诊断的核心难题。该数据集聚焦于银行、电信及市场等多个关键行业的运维场景,系统性地整合了查询记录、事件报告及遥测数据等多模态信息,为自动化根因定位算法的开发与评估提供了标准化测试平台。其创建推动了智能运维领域从传统经验驱动向数据驱动范式的转变,显著提升了故障排查的准确性与效率,对保障大规模服务系统的稳定性具有深远影响。
当前挑战
在根因分析领域,OpenSRE数据集致力于解决多源异构数据融合与动态故障模式识别的核心挑战,要求模型在噪声干扰下精准关联事件链条。数据构建过程中,面临行业数据敏感性带来的采集限制,需在脱敏处理与信息完整性之间取得平衡;同时,跨域遥测数据模式差异显著,涉及指标、日志与追踪等多种异构格式,其标准化对齐与标注工作耗费巨大。此外,真实运维场景中的长尾故障案例稀疏,构建具有代表性的基准测试集需克服样本分布不均的难题。
常用场景
经典使用场景
在智能运维与故障诊断领域,OpenSRE数据集为根因分析研究提供了标准化的基准测试平台。该数据集通过整合查询记录、事件报告及多源遥测数据,模拟了真实生产环境中系统异常的发生与传播过程。研究人员可基于此构建机器学习模型,自动识别复杂分布式系统中的故障源头,从而提升运维自动化水平与系统可靠性。
解决学术问题
OpenSRE数据集有效解决了智能运维研究中标注数据稀缺、故障场景模拟不完整的核心挑战。其结构化的事件链与遥测数据关联,为因果推断、时序异常检测等方向提供了可验证的实验基础。该数据集推动了根因分析算法在噪声容忍、多模态数据融合等方面的理论突破,显著降低了领域研究的实证门槛。
实际应用
在实际工业场景中,OpenSRE数据集可直接用于训练金融、电信及云服务领域的智能诊断系统。企业可借助其银行、电信与市场云平台的故障案例,构建自适应预警机制,实现从被动响应到主动预测的运维转型。这不仅缩短了平均故障修复时间,更为关键业务系统的连续性保障提供了数据驱动的决策支持。
数据集最近研究
最新研究方向
在智能运维领域,根因分析作为保障系统稳定性的关键技术,正借助OpenSRE数据集推动前沿探索。该数据集整合了银行、电信及市场等多个行业的查询与事件记录,为基于人工智能的故障诊断模型提供了丰富场景。当前研究聚焦于利用其多源遥测数据,结合图神经网络与因果推理方法,构建可解释的根因定位框架,以应对云原生环境下微服务架构的复杂性。随着数字化转型加速,此类工作对提升运维自动化水平、减少系统停机时间具有深远意义,成为行业热点。
以上内容由遇见数据集搜集并总结生成



