renumics/dcase23-task2-enriched|异常声音检测数据集|机器状态监测数据集
收藏数据集概述
数据集描述
数据集总结
- 名称: Enriched DCASE 2023 Challenge Task 2 Dataset
- 类别: 音频分类
- 大小: 1K<n<10K
- 标签: 异常检测, 异常声音检测, 声学条件监控, 声音机器故障诊断, 机器学习, 无监督学习, 声学场景分类, 声学事件检测, 声学信号处理, 音频域转移, 域泛化
- 许可证: cc-by-4.0
数据集结构
数据实例
- 音频: 单声道,时长10秒
- 路径: 音频文件路径
- 部分: 整数,表示部分
- d1p: 参数名称
- d1v: 参数值
- 域: 整数,0表示源域,1表示目标域
- 类别: 整数,表示机器类型
- 标签: 整数,0表示正常,1表示异常
- 异常指标: 整数,基于本地异常因子算法
- 异常分数: 浮点数,基于本地异常因子算法
- 嵌入: 音频嵌入,由音频频谱变换器生成
数据分割
- 开发数据集: 包含训练和测试分割
- 训练: 7000个实例
- 测试: 1400个实例
- 额外训练数据集: 仅包含训练分割,7000个实例
- 评估数据集: 仅包含测试分割,1400个实例
数据集创建
来源数据
- 包含七种机器类型的正常和异常操作声音
- 每个机器类型提供一个部分,包含训练和测试数据
- 录音包括机器操作声音和环境噪音
支持的任务和排行榜
- 任务: 异常声音检测,用于机器条件监控
- 要求: 无监督学习,域泛化,新机器类型模型训练,单机类型数据训练
使用数据集的考虑
社会影响
- 待补充
偏见讨论
- 待补充
其他已知限制
- 待补充
附加信息
基线系统
- 基线系统可在GitHub上找到,为入门级研究人员提供合理的性能起点
许可证信息
- 原始数据集由Hitachi, Ltd.和NTT Corporation创建,使用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可证

Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
中国行政区划shp数据
中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。 中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。
CnOpenData 收录
中国1km分辨率逐月NDVI数据集(2001-2023年)
中国1km分辨率逐月NDVI数据集(2001-2023年)根据MODIS MOD13A2数据进行月度最大值合成、镶嵌和裁剪后制作而成,包含多个TIF文件,每个TIF文件对应该月最大值NDVI数据,文件以时间命名。数据值域改为-0.2~1,不再需要除以一万,另外范围扩大到中国及周边地区,可以自行裁剪。数据分为两个文件夹,MVC文件夹中为MOD13A2 NDVI逐月最大值合成结果,mod1k_SGfilter为MVC中数据S-G滤波后的结果。
国家地球系统科学数据中心 收录