OGB/ogbg-molhiv|分子属性预测数据集|图神经网络数据集
收藏数据集概述
数据集名称
ogbg-molhiv
数据集摘要
ogbg-molhiv
是一个小型分子属性预测数据集,由斯坦福团队从MoleculeNet改编,作为Open Graph Benchmark的一部分。
支持的任务和排行榜
- 任务类型:分子属性预测,旨在预测分子是否抑制HIV,属于二分类任务。
- 评估指标:ROC-AUC。
- 排行榜:
数据集结构
数据属性
- 规模:小
- 图数量:41,127
- 平均节点数:25.5
- 平均边数:27.5
- 平均节点度:2.2
- 平均聚类系数:0.002
- 最大强连通分量比率:0.993
- 图直径:12.0
数据字段
node_feat
(列表: #nodes x #node-features)edge_index
(列表: 2 x #edges)edge_attr
(列表: #edges x #edge-features)y
(列表: 1 x #labels)num_nodes
(整数)
数据分割
数据遵循PyGeometric版本的数据分割,可通过以下代码获取分割信息: python from ogb.graphproppred import PygGraphPropPredDataset
dataset = PygGraphPropPredDataset(name = ogbg-molhiv)
split_idx = dataset.get_idx_split() train = dataset[split_idx[train]] # valid, test
附加信息
许可信息
数据集已根据MIT许可证发布。
引用信息
@inproceedings{hu-etal-2020-open, author = {Weihua Hu and Matthias Fey and Marinka Zitnik and Yuxiao Dong and Hongyu Ren and Bowen Liu and Michele Catasta and Jure Leskovec}, editor = {Hugo Larochelle and Marc Aurelio Ranzato and Raia Hadsell and Maria{-}Florina Balcan and Hsuan{-}Tien Lin}, title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs}, booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual}, year = {2020}, url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html}, }
贡献者
感谢 @clefourrier 添加此数据集。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录