backblaze/Drive_Stats
收藏Hugging Face2023-10-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/backblaze/Drive_Stats
下载链接
链接失效反馈官方服务:
资源简介:
Drive Stats数据集是Backblaze公司自2013年4月起开源的公共数据集,记录了其云存储基础设施中硬盘的每日指标。数据集包含超过3.88亿条记录,并且每天新增超过24万条记录。数据集的格式为CSV文件,每天生成一个文件,文件名为YYYY-MM-DD.csv。每个文件包含硬盘的基本信息和S.M.A.R.T.统计数据。数据集的使用是免费的,但要求用户引用Backblaze作为数据来源,并不得将数据出售。
The Drive Stats dataset is an open-source public dataset released by Backblaze, which has recorded daily metrics of hard disk drives in its cloud storage infrastructure since April 2013. The dataset contains over 388 million total records, with more than 240,000 new records added daily. It is stored in CSV format, with one file generated per day, and each file follows the naming convention YYYY-MM-DD.csv. Each file contains basic information about the hard disk drives and their S.M.A.R.T. statistics. The dataset is available for free use, but users must cite Backblaze as the original data source and are prohibited from reselling the dataset.
提供机构:
backblaze
原始信息汇总
Drive Stats 数据集概述
基本信息
- 数据集名称: Drive Stats
- 数据集大小: 100M<n<1B
- 许可证: other
- 许可证详情: 链接
- 数据创建者: machine-generated
- 数据集描述: Drive Stats 是一个公开的数据集,包含 Backblaze 云存储基础设施中硬盘的每日指标。自2013年4月起开源,目前包含超过3.88亿条记录,每天增加超过24万条记录。该数据集是只增不删的,一旦写入就不会更新或删除。
数据集快照(2023年第二季度)
- 硬盘数量: 240,940
- 硬盘故障数量: 1,339
- 硬盘天数: 21.1M
- 年化故障率: 2.28%
数据格式
- 文件格式: CSV(逗号分隔值)
- 文件命名: YYYY-MM-DD.csv(例如,2013-04-10.csv)
- 列信息:
- 日期: yyyy-mm-dd 格式的快照日期
- 序列号: 制造商分配的硬盘序列号
- 型号: 制造商分配的硬盘型号
- 容量: 硬盘容量(字节)
- 故障: 如果硬盘正常则为“0”,如果为故障前最后一天则为“1”
- SMART统计:
- 2013-2014: 80列数据,包含40个不同SMART统计的原始值和归一化值
- 2015-2017: 90列数据,包含45个不同SMART统计的原始值和归一化值
- 2018 (Q1): 100列数据,包含50个不同SMART统计的原始值和归一化值
- 2018 (Q2): 104列数据,包含52个不同SMART统计的原始值和归一化值
- 2018 (Q4): 124列数据,包含62个不同SMART统计的原始值和归一化值
注意事项
- 模式变化: 每个季度的模式可能会有所变化,但基本信息(日期、序列号、型号、容量、故障)不会改变。SMART属性的数量可能会有所不同,但不会超过255对。
数据使用
- 免费使用: 可以免费下载和使用该数据,只需遵守以下三点:
- 引用 Backblaze 作为数据来源
- 自行负责数据的使用
- 不得将数据出售给任何人
搜集汇总
数据集介绍

构建方式
Drive Stats数据集由Backblaze公司构建,该公司将其云存储基础设施中硬盘的日常指标数据开放源代码。数据集以追加模式记录,每日新增超过240,000条记录,总计超过3.88亿条记录。数据集由每日硬盘快照构成,每个快照包含硬盘的基本信息及S.M.A.R.T.统计信息,并以CSV格式存储。
特点
该数据集的特点在于其连续性和全面性,提供了自2013年4月以来的硬盘运行数据。数据集记录了硬盘的日常统计信息,包括硬盘的运行状态、故障情况以及硬盘的健康度指标。此外,数据集每季度更新一次,反映硬盘技术发展趋势及硬盘性能变化。
使用方法
用户可免费下载并使用该数据集,但需遵守三项原则:引用Backblaze作为数据来源、对数据的使用负责、不将数据出售给他人。数据集以CSV文件形式组织,每个文件包含一天内所有活动硬盘的记录。用户需注意,数据集的架构可能每个季度都有所变化,特别是SMART属性的数量。
背景与挑战
背景概述
在数据存储与分析领域,硬盘驱动器的稳定性和可靠性是至关重要的研究课题。自2013年4月开源以来,Backblaze公司所提供的Drive Stats数据集,已成为该领域内极具影响力的资源。该数据集记录了Backblaze云存储基础设施中硬盘驱动器的每日度量指标,截至目前已累积超过3.88亿条记录,并以每日24万条的速度递增。这一数据集由机器生成,持续记录硬盘的基本信息和S.M.A.R.T.统计,为硬盘驱动器性能评估和故障预测提供了宝贵的一手资料。
当前挑战
尽管Drive Stats数据集为硬盘驱动器的研究提供了丰富的数据资源,但在使用过程中仍面临诸多挑战。首先,数据集的构建过程中,需要处理的数据量巨大,且数据模式可能随着时间而变化,这给数据的一致性和处理带来了挑战。其次,数据集解决的核心问题——硬盘驱动器的故障预测,需要克服如何准确解读S.M.A.R.T.统计与硬盘故障之间的复杂关联。此外,数据集的开放性和可用性要求研究者在使用时必须确保数据安全和隐私保护,避免不当使用数据造成潜在的法律和伦理问题。
常用场景
经典使用场景
在存储设备性能评估领域,Drive Stats数据集被广泛用于分析硬盘驱动器的运行状况与故障率。通过对该数据集的深入挖掘,研究人员能够准确把握硬盘的可靠性,为硬盘的维护与更换提供科学依据。
衍生相关工作
基于Drive Stats数据集,衍生出了一系列相关研究工作,包括硬盘故障预测模型、硬盘健康监测工具的开发以及存储系统可靠性的改进研究。这些工作进一步推动了存储设备研究的深度与广度。
数据集最近研究
最新研究方向
在存储技术领域,硬盘驱动器(HDD)的可靠性与寿命预测是关键的研究课题。Backblaze的Drive Stats数据集,作为一种开源的公共数据集,记录了其云存储基础设施中硬盘驱动器的每日性能指标,为研究者提供了宝贵的实证资源。近期,该数据集在故障预测模型的构建与优化上显示出其独特的价值,研究者通过分析SMART统计数据,探寻硬盘故障的早期迹象。此外,基于该数据集的年度故障率分析,为硬盘寿命的预估提供了重要依据,进而影响到存储系统的维护策略与成本控制。
以上内容由遇见数据集搜集并总结生成



