NAB (Numenta Anomaly Benchmark)|异常检测数据集|时间序列分析数据集
收藏数据集概述
数据集名称
NAB (Numenta Anomaly Benchmark)
数据集描述
NAB是一个用于评估流数据和实时应用中异常检测算法的基准数据集。该数据集包含超过50个数据文件,旨在为流数据异常检测的研究提供数据。数据集由真实世界和人工生成的时序数据组成,包含标记的异常行为周期。
数据集内容
- 数据集包含真实世界和人工生成的时序数据。
- 包含标记的异常行为周期。
使用场景
本项目使用的是NAB数据集中的realAdExchange数据集,该数据集记录了在线广告点击率,指标为每次点击成本(CPC)。数据集中包含一个无异常的文件和一个包含异常的文件。
数据集应用
通过构建序列到序列的多层感知机(MLP)和自编码器(使用Dense、LSTM、Conv1D层),对数据进行重建和异常检测。使用卷积1D层的自编码器,结合均方误差作为阈值定义的误差度量和RMSprop作为优化器,能够有效地检测异常并重建数据。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
鄱阳湖流域主要水文站实时日水位观测数据集(2017-2024年)
该数据集为鄱阳湖流域主要水文站的逐日实时水位数据集。包含了外洲站、李家渡站、湖口站、星子站、万家埠站、都昌等10个主要水文站的日水位数据,观测时间为每日8:00。共享政策为一次可共享3000条数据,一个站点的一日数据为一条记录,一年可申请一次。 数据集包含1个excel表格文件,日水位.xlsx。
国家地球系统科学数据中心 收录