five

Unifying Public Datasets for Insulator Detection and Fault Classification in Electrical Power Lines|电力系统维护数据集|故障诊断数据集

收藏
github2024-05-19 更新2024-05-31 收录
电力系统维护
故障诊断
下载链接:
https://github.com/heitorcfelix/public-insulator-datasets
下载链接
链接失效反馈
资源简介:
该数据集统一了用于电力线绝缘体检测和故障分类的公共数据集,提供了合并后的数据以及用于合并数据的代码。

This dataset consolidates public datasets for power line insulator detection and fault classification, providing merged data along with the code used for dataset integration.
创建时间:
2020-01-30
原始信息汇总

数据集概述

数据集名称

Unifying Public Datasets for Insulator Detection and Fault Classification in Electrical Power Lines

数据内容

  • 图像数据
  • 标签数据(COCO格式)

数据获取

数据可通过以下链接下载: https://drive.google.com/drive/folders/1829TgSKUVGZXk4_cd1BKtK0L9XHkHA4j?usp=sharing

数据集合并

  • 需要下载Tomaszewski et al.的downsized.zip,并将其内容复制到Tomaszewski文件夹。
  • 需要下载CPLID数据集,并将其内容复制到CPLID文件夹。

数据使用

  • 修改data_augmentation.py文件中的data_root路径,指向本项目的克隆路径。
  • 运行python data_augmentation.py进行数据增强。

引用信息

若在研究中使用此数据集,请引用以下信息:

@misc{vieira2020unifying, author = {Vieira-e-Silva, Andr{e} L. and Chaves, Thiago and Felix, Heitor and Mac{^e}do, David and Sim{~o}es, Francisco and Gama-Neto, Milton and Teichrieb, Veronica and Zanchettin, Cleber}, title = {{Unifying Public Datasets for Insulator Detection and Fault Classification in Electrical Power Lines}}, year = {2020}, howpublished = {url{https://github.com/heitorcfelix/public-insulator-datasets}} }

许可证

MIT License

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合两个公开的绝缘子检测数据集构建而成,旨在提升电力线路中绝缘子检测与故障分类的准确性。具体构建过程中,首先下载了Tomaszewski et al.提出的数据集和CPLID数据集,并将它们的内容分别复制到指定的文件夹中。随后,利用Albumentations API进行数据增强处理,通过执行data_augmentation.py脚本完成数据集的合并与扩充。
特点
该数据集的主要特点在于其整合了多个公开数据集,从而提供了更为丰富和多样化的样本,有助于提升模型在实际应用中的泛化能力。此外,数据集以COCO格式提供标注信息,便于直接应用于目标检测和分类任务。数据增强技术的应用进一步增加了数据集的复杂性和真实性,使其更贴近实际电力线路的复杂环境。
使用方法
使用该数据集时,用户需首先下载图像和标注文件,并按照README文件中的指示进行安装和配置。通过修改data_augmentation.py文件中的数据根路径,用户可以在Albumentations项目文件夹中运行该脚本,以完成数据集的合并和增强。此外,用户需确保已安装所需的Python环境和依赖包,以便顺利执行数据处理和模型训练任务。
背景与挑战
背景概述
在电力系统中,绝缘子检测与故障分类是确保电力线路安全运行的关键任务。随着智能电网技术的发展,对绝缘子状态的实时监测和故障诊断提出了更高的要求。为此,Vieira-e-Silva等人于2020年创建了‘Unifying Public Datasets for Insulator Detection and Fault Classification in Electrical Power Lines’数据集,旨在整合现有的公开数据集,以提升绝缘子检测与故障分类的准确性和效率。该数据集通过合并Tomaszewski et al.和CPLID两个公开数据集,提供了丰富的图像数据和标签(以COCO格式),为相关领域的研究提供了宝贵的资源。
当前挑战
尽管该数据集在绝缘子检测与故障分类领域具有重要意义,但其构建过程中仍面临若干挑战。首先,数据集的整合需要处理不同数据源的格式和标注标准,确保数据的一致性和可用性。其次,数据增强技术的应用,如Albumentations API的使用,虽然提升了数据的多样性,但也增加了数据处理的复杂性。此外,数据集的规模和质量直接影响模型的训练效果,如何在有限的资源下最大化数据集的价值,是研究者需要解决的重要问题。
常用场景
经典使用场景
在电力系统领域,绝缘子检测与故障分类数据集的统一化处理为研究人员提供了丰富的资源。该数据集通过整合两个公开的绝缘子数据集,生成了一个包含图像和标签(以COCO格式)的综合数据集。这一整合不仅扩大了数据规模,还通过数据增强技术如Albumentations API的应用,显著提升了模型的训练效果。经典使用场景包括但不限于:绝缘子故障的自动检测、电力线路健康状态的实时监控以及故障类型的精确分类。
实际应用
在实际应用中,该数据集为电力公司和维护团队提供了强大的工具,用于实时监控和诊断电力线路的健康状态。通过自动化检测绝缘子故障,可以及时发现并处理潜在问题,从而减少停电时间和维护成本。此外,该数据集的应用还支持智能电网的建设,提升了电力系统的可靠性和安全性。实际应用场景包括电力线路的定期巡检、故障预警系统的开发以及电力资产的智能管理。
衍生相关工作
基于该数据集,已衍生出多项经典工作,涵盖了电力系统故障检测与分类的多个方面。例如,研究人员利用该数据集开发了高效的深度学习模型,用于绝缘子故障的实时检测和分类。此外,还有工作探讨了如何通过数据增强技术进一步提升模型的性能。这些相关工作不仅丰富了电力系统故障检测的研究内容,还为实际应用提供了技术支持,推动了电力行业的智能化发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

suno

该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。

huggingface 收录

mmlu_eval

该数据集用于评估和比较不同模型的推理能力。它包含多个特征,如问题、主题、选项、答案、输入、基线模型输出、混合推理模型输出和评估结果。数据集分为一个验证集,包含1531个样本。数据集的大小为10295402字节,下载大小为4908248字节。

huggingface 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

China Health and Retirement Longitudinal Study

中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)是一个全国性的、具有代表性的老年人调查项目,旨在收集有关中国45岁及以上人群的健康、经济和社会状况的数据。该数据集包括个人和家庭层面的信息,涵盖健康状况、医疗使用、经济状况、社会支持等多个方面。

charls.pku.edu.cn 收录