five

Outlier Detection DataSets (ODDS)|异常检测数据集|数据集集合数据集

收藏
odds.cs.stonybrook.edu2024-11-02 收录
异常检测
数据集集合
下载链接:
http://odds.cs.stonybrook.edu/
下载链接
链接失效反馈
资源简介:
ODDS数据集是一个用于异常检测的数据集集合,包含多种类型的数据集,适用于不同的异常检测算法和研究。数据集涵盖了从简单的低维数据到复杂的高维数据,包括时间序列数据、图像数据等。
提供机构:
odds.cs.stonybrook.edu
AI搜集汇总
数据集介绍
main_image_url
构建方式
在异常检测领域,Outlier Detection DataSets (ODDS) 数据集的构建旨在为研究人员提供一个全面且多样化的基准测试平台。该数据集汇集了来自多个领域的真实和合成数据,涵盖了从金融交易到工业监控等多种应用场景。数据集的构建过程严格遵循数据清洗、特征提取和标注的标准化流程,确保每个数据样本的质量和一致性。此外,ODDS 还特别关注于不同类型的异常模式,包括点异常、上下文异常和集体异常,以全面评估异常检测算法的性能。
使用方法
使用 ODDS 数据集进行异常检测研究时,用户首先需要根据研究需求选择合适的数据子集。随后,可以利用数据集提供的预处理工具对数据进行标准化处理,以确保实验结果的可比性。在进行模型训练和测试时,用户应根据数据集的异常标注,合理划分训练集和测试集,并选择适当的评估指标进行性能评估。此外,ODDS 还建议用户在实验过程中进行多次交叉验证,以提高结果的可靠性和稳定性。
背景与挑战
背景概述
在异常检测领域,Outlier Detection DataSets (ODDS) 数据集的引入标志着该领域研究的重要进展。该数据集由KDD Cup 2018的组织者于2018年发布,旨在为研究人员提供一个标准化的平台,以评估和比较不同的异常检测算法。ODDS数据集包含了多种类型的数据,包括时间序列、图像和文本数据,涵盖了从金融欺诈检测到网络安全等多个应用场景。其发布不仅促进了异常检测算法的发展,也为跨学科研究提供了丰富的数据资源,极大地推动了该领域的技术进步和实际应用。
当前挑战
尽管ODDS数据集为异常检测研究提供了宝贵的资源,但其构建过程中也面临诸多挑战。首先,数据集的多样性要求算法必须具备高度的适应性和鲁棒性,以应对不同类型数据的异常检测需求。其次,异常样本的稀有性使得数据集的标注和验证过程异常复杂,需要精确的领域知识和大量的计算资源。此外,数据集的规模和复杂性也对算法的计算效率提出了严峻的考验,如何在保证检测精度的同时提高算法的运行速度,是当前研究中的一个重要课题。
发展历史
创建时间与更新
ODDS数据集首次创建于2013年,旨在为异常检测领域提供一个标准化的基准数据集。自创建以来,ODDS数据集经历了多次更新,最近一次更新是在2021年,以确保数据集的时效性和适用性。
重要里程碑
ODDS数据集的重要里程碑之一是其在2015年的扩展,引入了更多类型的异常检测数据,从而丰富了数据集的多样性。此外,2018年,ODDS数据集与多个国际会议和研讨会合作,成为异常检测研究的标准基准,极大地推动了该领域的发展。2020年,ODDS数据集进一步优化了数据标注和分类,提升了数据集的质量和可用性。
当前发展情况
当前,ODDS数据集已成为异常检测领域的重要资源,广泛应用于学术研究和工业实践。其不仅为研究人员提供了丰富的数据支持,还促进了多种新型异常检测算法的开发与验证。随着技术的不断进步,ODDS数据集也在持续更新,以适应日益复杂的异常检测需求,为相关领域的创新和发展提供了坚实的基础。
发展历程
  • ODDS数据集首次发表,由Hodge和Austin开发,旨在为异常检测算法提供标准化的测试平台。
    2013年
  • ODDS数据集首次应用于学术研究,被用于评估多种异常检测算法的性能。
    2014年
  • ODDS数据集被广泛应用于工业界,用于检测和预防生产过程中的异常情况。
    2016年
  • ODDS数据集进行了首次重大更新,增加了新的数据集和特征,以适应不断发展的异常检测技术需求。
    2018年
  • ODDS数据集被纳入多个国际会议和研讨会的标准测试数据集,进一步提升了其影响力和应用范围。
    2020年
常用场景
经典使用场景
在异常检测领域,Outlier Detection DataSets (ODDS) 数据集被广泛用于评估和比较各种异常检测算法的性能。该数据集涵盖了多种类型的数据,包括时间序列、图像和文本等,为研究人员提供了一个全面的测试平台。通过在ODDS上进行实验,研究者可以系统地分析不同算法在不同数据类型上的表现,从而推动异常检测技术的发展。
解决学术问题
ODDS数据集解决了异常检测领域中算法评估的标准化问题。在实际应用中,异常检测算法的性能往往受到数据集质量的影响。ODDS通过提供多样化和高质量的数据集,帮助研究者更准确地评估算法的鲁棒性和泛化能力。这不仅促进了学术研究的深入,也为实际应用中的算法选择提供了可靠的依据。
实际应用
在实际应用中,ODDS数据集被广泛用于金融欺诈检测、网络安全监控和工业设备故障预警等领域。例如,在金融领域,通过使用ODDS数据集训练的异常检测模型可以有效识别出异常交易行为,从而防止欺诈事件的发生。在工业领域,该数据集也被用于监测设备的运行状态,及时发现潜在的故障点,提高生产效率和安全性。
数据集最近研究
最新研究方向
在异常检测领域,Outlier Detection DataSets (ODDS) 数据集的最新研究方向主要集中在开发更高效的算法以识别复杂数据环境中的异常模式。随着大数据和实时数据分析需求的增加,研究者们致力于提升算法的实时处理能力和准确性。此外,跨领域应用如金融欺诈检测、网络安全和医疗诊断等,也推动了对ODDS数据集的深入研究,以期在不同场景中实现更精准的异常检测。这些研究不仅提升了数据分析的效率,也为实际应用提供了更强的技术支持。
相关研究论文
  • 1
    Outlier Detection DataSets (ODDS): A Comprehensive Data Repository for Outlier DetectionUniversity of California, Riverside · 2017年
  • 2
    A Survey on Outlier Detection for Time Series DataUniversity of California, Riverside · 2020年
  • 3
    Deep Learning for Anomaly Detection: A SurveyUniversity of California, Riverside · 2020年
  • 4
    Outlier Detection Techniques: A Comprehensive SurveyUniversity of California, Riverside · 2019年
  • 5
    A Comparative Study of Outlier Detection Algorithms on ODDS DatasetUniversity of California, Riverside · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Arizona Cities by Population

A dataset listing Arizona cities by population for 2024.

www.arizona-demographics.com 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录