OGB/ogbg-molhiv|分子属性预测数据集|图神经网络数据集
收藏数据集概述
数据集名称
ogbg-molhiv
数据集摘要
ogbg-molhiv
是一个小型分子属性预测数据集,由斯坦福团队从MoleculeNet改编,作为Open Graph Benchmark的一部分。
支持的任务和排行榜
- 任务类型:分子属性预测,旨在预测分子是否抑制HIV,属于二分类任务。
- 评估指标:ROC-AUC。
- 排行榜:
数据集结构
数据属性
- 规模:小
- 图数量:41,127
- 平均节点数:25.5
- 平均边数:27.5
- 平均节点度:2.2
- 平均聚类系数:0.002
- 最大强连通分量比率:0.993
- 图直径:12.0
数据字段
node_feat
(列表: #nodes x #node-features)edge_index
(列表: 2 x #edges)edge_attr
(列表: #edges x #edge-features)y
(列表: 1 x #labels)num_nodes
(整数)
数据分割
数据遵循PyGeometric版本的数据分割,可通过以下代码获取分割信息: python from ogb.graphproppred import PygGraphPropPredDataset
dataset = PygGraphPropPredDataset(name = ogbg-molhiv)
split_idx = dataset.get_idx_split() train = dataset[split_idx[train]] # valid, test
附加信息
许可信息
数据集已根据MIT许可证发布。
引用信息
@inproceedings{hu-etal-2020-open, author = {Weihua Hu and Matthias Fey and Marinka Zitnik and Yuxiao Dong and Hongyu Ren and Bowen Liu and Michele Catasta and Jure Leskovec}, editor = {Hugo Larochelle and Marc Aurelio Ranzato and Raia Hadsell and Maria{-}Florina Balcan and Hsuan{-}Tien Lin}, title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs}, booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual}, year = {2020}, url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html}, }
贡献者
感谢 @clefourrier 添加此数据集。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
A00_13081a.jpg
Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7
DataONE 收录