Binary-classification-dataset|二分类数据集|机器学习数据集
收藏数据集概述
数据集名称与大小
- data0: 包含100个数据点,线性可分。
- data1: 包含100个数据点。
数据格式
- 数据点标签为
1
和-1
。 - 数据点坐标范围在
[0 10 0 10]
内。 - CSV文件中每行的格式为
label x y
。
附加工具
- gen2dPoints.py: 位于
bin/
目录下,用于手动生成2D点数据集。

中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
UCF-Crime
UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频,其中包含13个现实异常,包括虐待,逮捕,纵火,殴打,道路交通事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。之所以选择这些异常,是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先,考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二,用于识别13个异常活动中的每一个。
OpenDataLab 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
highD
highD数据集是由亚琛工业大学汽车工程研究所创建的,旨在为高度自动化驾驶系统的安全验证提供大规模自然车辆轨迹数据。该数据集包含从德国高速公路收集的16.5小时测量数据,涵盖110,000辆车,总行驶距离达45,000公里,记录了5600次完整的变道行为。数据集通过配备高分辨率摄像头的无人机从空中视角进行测量,确保了数据的准确性和自然性。highD数据集不仅用于安全验证和影响评估,还支持交通模拟模型、交通分析、驾驶员模型和道路用户预测模型等领域的研究,旨在解决高度自动化驾驶系统在复杂交通环境中的应用问题。
arXiv 收录
MedDRA (Medical Dictionary for Regulatory Activities)
MedDRA是一个国际标准化的医学术语词典,主要用于药物和医疗器械的监管活动。它包含了详细的医学术语分类,如症状、诊断、治疗和药物不良反应等,广泛应用于药物安全监测、临床试验报告和监管文件中。
www.meddra.org 收录