CATS|时间序列分析数据集|异常检测数据集
收藏数据集概述
数据集名称
- CATS-online-anomaly-detection
数据集描述
- 该数据集用于异常检测项目,使用的是Controlled Anomalies Time Series (CATS) 数据集。
- 项目目标是创建一个用于异常检测的笔记本,并模拟使用Kafka进行在线检测。
- 笔记本设计允许轻松更换数据集以执行异常检测。
- 使用的神经网络模型为Autoencoder。
模型与训练
- 项目中训练了16个模型,以评估不同场景下的结果。
- 模型训练参数包括:
- 优化器:Adam-RMSprop
- 周期数:30-60
- 阈值选择百分位
- 两种不同的Autoencoder模型
结果展示
- 结果可通过Streamlit查看,用户可以上传数据集并选择模型进行异常检测。
- 界面支持实时选择模型部分进行异常检测,并可视化结果。
技术栈
- 项目中使用的技术包括:
- Kafka
- Tensorflow
- Streamlit

mstz/speeddating
Speed dating数据集来自OpenML,主要用于二分类任务,即判断两个人是否会约会。数据集的规模在1K到10K之间,包含多个特征,如性别、年龄、种族、兴趣等。
hugging_face 收录
中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2024)
地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2024年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2024)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。
国家青藏高原科学数据中心 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
simon3000/genshin-voice
Genshin Voice数据集包含来自热门游戏《原神》的语音台词,涵盖多种语言(中文、英文、日文、韩文)。这些语音台词由游戏中的角色说出,内容广泛,包括问候、战斗和故事对话等。数据集包含音频、转录文本、语言、说话者、说话者类型、类型和游戏内文件名等特征。
hugging_face 收录
NASA Battery Dataset
用于预测电池健康状态的数据集,由NASA提供。
github 收录