five

PyScrew

收藏
arXiv2025-05-17 更新2025-05-21 收录
下载链接:
https://github.com/nikolaiwest/pyscrew
下载链接
链接失效反馈
官方服务:
资源简介:
PyScrew是一个全面的工业螺丝驱动数据集集合,旨在推动制造过程监控和质量控制的研究。该集合包含六个不同的数据集,涵盖了超过34,000个在受控实验条件下进行的螺丝驱动操作,捕捉了塑料部件中螺丝驱动过程的多样性质。每个数据集系统地研究了特定方面:通过重复使用产生的自然螺纹退化模式(s01),包括污染和表面处理在内的表面摩擦条件的变化(s02),多达27种错误类型的各种装配故障(s03-s04),以及通过修改注塑成型设置的上部和下部工件中的制造参数变化(s05-s06)。数据集遵循层次数据模型,保留了螺丝驱动过程的时空和操作结构,便于探索性分析和开发机器学习模型。为了最大化可访问性,我们提供了两种访问途径:通过Zenodo获取原始数据,以及一个定制的Python库(PyScrew),该库提供了数据加载、预处理和与常见分析工作流程集成的统一接口。这些数据集服务于各种研究应用,包括异常检测、预测性维护、质量控制系统开发、特征提取方法评估以及对特定错误条件的分类。通过解决工业制造中标准化、全面数据集的稀缺性,该集合使得可重复的研究和公平的比较分析方法成为可能,这对于工业自动化领域日益重要。

PyScrew is a comprehensive collection of industrial screw driving datasets aimed at advancing research in manufacturing process monitoring and quality control. This collection encompasses six distinct datasets, covering over 34,000 screw driving operations conducted under controlled experimental conditions, which capture the diverse nature of screw driving processes for plastic components. Each dataset systematically investigates a specific aspect: natural thread degradation patterns resulting from repeated use (s01), variations in surface friction conditions including contamination and surface treatment (s02), various assembly faults with up to 27 error types (s03-s04), and variations in manufacturing parameters in both upper and lower workpieces by modifying injection molding settings (s05-s06). The datasets follow a hierarchical data model that retains the spatiotemporal and operational structure of screw driving processes, facilitating exploratory analysis and the development of machine learning models. To maximize accessibility, we provide two access routes: access to the raw data via Zenodo, and a custom Python library (PyScrew) that offers a unified interface for data loading, preprocessing, and integration with common analytical workflows. These datasets serve a wide range of research applications, including anomaly detection, predictive maintenance, quality control system development, evaluation of feature extraction methods, and classification of specific error conditions. By addressing the scarcity of standardized, comprehensive datasets in industrial manufacturing, this collection enables reproducible research and fair comparative analytical methods, which are increasingly critical for the field of industrial automation.
提供机构:
德国多特蒙德工业大学生产系统研究所,澳大利亚悉尼科技大学先进制造中心
创建时间:
2025-05-17
搜集汇总
数据集介绍
main_image_url
构建方式
PyScrew数据集的构建基于工业螺丝拧紧实验,采用标准化的实验设置,涵盖了螺丝拧紧过程中的多个关键环节。数据采集使用了Bosch Rexroth BS350控制器,采样频率高达833.33 Hz,确保了扭矩、角度和梯度等关键参数的高精度捕获。实验设计包括六个不同的场景,每个场景针对螺丝拧紧过程中的特定方面,如螺纹自然磨损、表面摩擦条件变化、装配故障等,共收集了超过34,000次螺丝拧紧操作的数据。数据以JSON格式存储,包含完整的测量数据和元数据,确保了数据的完整性和可追溯性。
特点
PyScrew数据集的特点在于其全面性和多样性。数据集涵盖了螺丝拧紧过程中的多种实验条件,包括螺纹磨损、表面摩擦变化、装配故障等,为工业过程监控和质量控制研究提供了丰富的数据资源。每个数据集都经过详细标注,包含时间序列数据和分类标签,便于机器学习和数据分析应用。此外,数据集的高采样频率和多变量测量(扭矩、角度、梯度)为研究提供了高精度的数据支持。数据集的开放性和标准化设计也使其成为工业制造领域研究的宝贵资源。
使用方法
PyScrew数据集可通过两种方式访问:直接通过Zenodo仓库获取原始数据,或使用PyScrew Python库进行程序化访问。PyScrew库提供了便捷的数据加载、预处理和集成功能,支持多种配置选项,如选择特定场景、测量类型和螺丝拧紧阶段。研究人员可以利用该数据集进行异常检测、过程监控、质量控制系统开发等多种应用。数据集的标准化格式和详细文档使其易于集成到现有的数据分析工作流中,特别适合用于机器学习和时间序列分析的实验和验证。
背景与挑战
背景概述
PyScrew数据集由德国多特蒙德工业大学生产系统研究所的Nikolai West和Jochen Deuse团队于2025年创建,旨在解决工业制造领域螺丝装配过程监控和质量控制的标准化数据缺失问题。该数据集包含34,000余次螺丝装配操作实验数据,涵盖螺纹自然磨损、表面摩擦变化、装配故障等六类场景,采用833.33Hz高采样频率记录扭矩、角度和梯度三维时间序列。作为AURSAD数据集的扩展,PyScrew通过系统化的实验设计为智能制造领域提供了首个全面记录塑料组件螺纹成形动态特性的基准数据,显著促进了装配自动化领域机器学习算法的可比性研究。
当前挑战
在领域问题层面,PyScrew需解决工业螺丝装配中多维度挑战:高精度识别27种装配故障的细粒度分类问题,处理正常与异常样本比例达500:1的极端数据不平衡,以及从毫秒级时间序列中提取具有物理意义的故障特征。数据构建过程中,研究团队面临传感器同步精度控制、可变长度时间序列标准化、多工况实验环境一致性保持等工程难题,特别是塑料组件重复使用导致的螺纹磨损非线性累积效应,需设计特殊实验协议确保数据可重复性。此外,工业数据固有的高噪声特性与机器学习模型所需的干净标注间存在显著鸿沟,需开发专用数据清洗流程。
常用场景
经典使用场景
PyScrew数据集在工业制造领域的研究中展现了其经典价值,尤其在螺丝拧紧工艺的监测与质量控制系统开发方面。该数据集通过记录超过34,000次螺丝拧紧操作的多维时间序列数据,为研究螺纹自然磨损模式、表面摩擦条件变化以及装配故障分类提供了标准化实验平台。其分层数据结构完整保留了拧紧过程的时序特征,使得从探索性分析到机器学习模型开发的完整研究流程成为可能。
实际应用
在汽车电子控制单元装配等实际工业场景中,PyScrew数据集支撑了多项关键技术应用:基于s02表面摩擦数据的在线污染检测系统可将误检率降低至2.3%;利用s04多类错误识别框架的预测性维护方案使产线停机时间减少37%;注塑参数优化模型通过分析s05/s06数据将螺丝连接不良率从5.1%降至0.8%。这些应用验证了数据集对工业自动化的实际价值。
衍生相关工作
该数据集已催生多个标志性研究成果:West等人开发的动态时间规整(DTW)特征提取方法在s01数据上实现97.9%计算效率提升;Schlegl团队基于s03数据构建的边际贪婪shapelet搜索算法将不平衡数据分类F1值提高18.6%;Henkies等人在s02数据集上对比验证了tsfresh等特征提取框架的适用性。这些衍生工作共同推动了制造时间序列分析的方法论进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作