TAGLAS|图数据数据集|机器学习评估数据集
收藏数据集概述
数据集统计信息
数据集 (key) | 平均节点数 | 平均边数 | 图数量 | 任务级别 | 任务类型 | 数据分割 (train/val/test) | 领域 | 描述 | 来源 |
---|---|---|---|---|---|---|---|---|---|
Cora_node (cora_node) | 2708 | 10556 | 1 | Node | 7-way classification | 140/500/2068 | Co-Citation | 预测论文类别 | Graph-LLM, OFA |
Cora_link (cora_link) | 2708 | 10556 | 1 | Link | Binary classification | 17944/1056/2112 | Co-Citation | 预测两篇论文是否被其他论文共同引用 | Graph-LLM, OFA |
Pubmed_node (pubmed_node) | 19717 | 88648 | 1 | Node | 3-way classification | 60/500/19157 | Co-Citation | 预测论文类别 | Graph-LLM, OFA |
Pubmed_link (pubmed_link) | 19717 | 88468 | 1 | Link | Binary classification | 150700/8866/17730 | Co-Citation | 预测两篇论文是否被其他论文共同引用 | Graph-LLM, OFA |
Arxiv (arxiv) | 169343 | 1166243 | 1 | Node | 40-way classification | 90941/29799/48603 | Citation | 预测论文类别 | OGB, OFA |
WikiCS (wikics) | 11701 | 216123 | 1 | Node | 10-way classification | 580/1769/5847 | Wiki page | 预测Wiki页面的类别 | PyG, OFA |
Product-subset (products) | 54025 | 144638 | 1 | Node | 47-way classification | 14695/1567/36982 | Co-purchase | 预测产品类别 | TAPE |
FB15K237 (fb15k237) | 14541 | 310116 | 1 | Link | 237-way classification | 272115/17535/20466 | Knowledge graph | 预测两个实体之间的关系 | OFA |
WN18RR (wn18rr) | 40943 | 93003 | 1 | Link | 11-way classification | 86835/3034/3134 | Knowledge graph | 预测两个实体之间的关系 | OFA |
MovieLens-1m (ml1m) | 9923 | 2000418 | 1 | Link | regression/5-way | 850177/50011/100021 | Movie rating | 预测用户和电影之间的评分 | PyG |
Chembl_pretrain (chemblpre) | 25.87 | 55.92 | 365065 | Graph | 1048-way binary classification | 341952/0/0 | molecular | 预测分子对多种分析的有效性 | GIMLET, OFA |
PCBA (pcba) | 25.97 | 56.20 | 437929 | Graph | 128-way binary classification | 349854/43650/43588 | molecular | 预测分子对多种分析的有效性 | GIMLET, OFA |
HIV (hiv) | 25.51 | 54.94 | 41127 | Graph | Binary classification | 32901/4113/4113 | molecular | 预测分子对HIV的有效性 | GIMLET, OFA |
BBBP (bbbp) | 24.06 | 51.91 | 2039 | Graph | Binary classification | 1631/204/204 | molecular | 预测分子对脑血屏障的有效性 | GIMLET, OFA |
BACE (bace) | 34.09 | 73.72 | 1513 | Graph | Binary classification | 1210/151/152 | molecular | 预测分子对BACE1蛋白酶的有效性 | GIMLET, OFA |
toxcast (toxcast) | 18.76 | 38.50 | 8575 | Graph | 588-way binary classification | 6859/858/858 | molecular | 预测分子对多种分析的有效性 | GIMLET, OFA |
esol (esol) | 13.29 | 27.35 | 1128 | Graph | Regression | 902/113/113 | molecular | 预测分子的溶解度 | GIMLET, OFA |
freesolv (freesolv) | 8.72 | 16.76 | 642 | Graph | Regression | 513/64/65 | molecular | 预测分子的自由水合能 | GIMLET, OFA |
lipo (lipo) | 27.04 | 59.00 | 4200 | Graph | Regression | 3360/420/420 | molecular | 预测分子的亲脂性 | GIMLET, OFA |
cyp450 (cyp450) | 24.52 | 53.02 | 16896 | Graph | 5-way binary classification | 13516/1690/1690 | molecular | 预测分子对CYP450酶家族的有效性 | GIMLET, OFA |
tox21 (tox21) | 18.57 | 38.59 | 7831 | Graph | 12-way binary classification | 6264/783/784 | molecular | 预测分子对多种分析的有效性 | GIMLET, OFA |
muv (muv) | 24.23 | 52.56 | 93087 | Graph | 17-way binary classification | 74469/9309/9309 | molecular | 预测分子对多种分析的有效性 | GIMLET, OFA |
ExplaGraphs (expla_graph) | 5.17 | 4.25 | 2766 | Graph | Question Answering | 1659/553/554 | Commonsense | 常识推理 | G-retriver |
SceneGraphs (scene_graph) | 19.13 | 68.44 | 100000 | Graph | Question Answering | 59978/19997/20025 | scene graph | 场景图问题回答 | G-retriver |
MAG240m-subset (mag240m) | 5875010 | 26434726 | 1 | Node | 153-way classification | 900722/63337/63338/132585 | Citation | 预测论文类别 | OGB |
Ultrachat200k (ultrachat200k) | 3.72 | 2.72 | 449929 | Graph | Question Answering | 400000/20000/29929 | Conversation | 根据之前的对话回答问题 | UltraChat200k |
数据集加载
加载数据集
-
基本加载方式: 使用数据集的关键字(key)进行加载。例如,加载Arxiv数据集: python from TAGLAS import get_dataset dataset = get_dataset("arxiv")
-
加载多个数据集: 同时加载多个数据集: python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"])
-
自定义数据路径: 可以设置
root
参数来改变数据文件的存储路径: python from TAGLAS import get_datasets dataset_list = get_datasets(["arxiv", "pcba"], root="your_path") -
带参数加载: 对于某些数据集,可以添加额外参数进行加载: python from TAGLAS import get_dataset dataset = get_dataset("fb15k237", to_undirected=False)
-
直接导入数据集类: 直接从数据集类导入也是支持的: python from TAGLAS.datasets import Arxiv dataset = Arxiv()
数据键描述和基本使用
-
数据样本存储: 所有数据样本存储在
TAGData
类中,该类继承自torch_geometric
包中的Data
类。 -
常用键:
x
: 所有节点的文本特征。node_map
: 节点索引到节点文本特征的映射。edge_attr
: 所有边的文本特征。edge_map
: 边索引到边文本特征的映射。label
: 所有标签的文本特征。label_map
: 标签索引到标签文本特征的映射。edge_index
: 图结构。
-
示例: python from TAGLAS import get_dataset dataset = get_dataset("arxiv") x = dataset.x # 获取整个数据集的节点文本特征 data = dataset[0] # 获取数据集中的第一个图样本 edge_attr = data.edge_attr # 获取样本的边文本特征
任务加载
加载任务
-
加载特定任务: 通过调用
get_task
函数加载特定任务: python from TAGLAS import get_task task = get_task("cora_node", "default") -
加载多个任务: 同时加载多个任务: python from TAGLAS import get_tasks tasks = get_tasks(["cora_node", "arxiv", "wn18rr", "scene_graph"], "QA")
-
保存和加载任务: 可以保存和加载生成的任务以加快加载速度和重复实验: python from TAGLAS import get_task arxiv_task = get_task("arxiv", "subgraph_text", split="test", save_data=True, load_saved=True)
-
直接构造任务: 直接从数据集构造任务也是支持的: python from TAGLAS.datasets import Arxiv from TAGLAS.tasks import SubgraphTextNPTask dataset = Arxiv() task = SubgraphTextNPTask(dataset)
文本特征转换为句子嵌入
-
转换功能: 对于
default_text
,subgraph_text
, 和QA
任务类型,提供将文本特征转换为句子嵌入的功能: python from TAGLAS import get_task from TAGLAS.tasks.text_encoder import SentenceEncoder encoder_name = "ST" encoder = SentenceEncoder(encoder_name) arxiv_task = get_task("arxiv", "subgraph_text", split="test") arxiv_task.convert_text_to_embedding(encoder_name, encoder) -
支持的模型: 支持多种常用的LLMs进行句子嵌入,如
ST
,BERT
,e5
,llama2_7b
,llama2_13b
等。
批处理
- 批处理功能: 提供统一的批处理函数: python from TAGLAS import get_task arxiv_task = get_task("arxiv", "subgraph_text", split="test") batch = arxiv_task.collate([arxiv_task[i] for i in range(16)])

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
CHIRPS v2.0
CHIRPS v2.0是一个全球降水数据集,提供高分辨率的降水估计,结合了卫星观测和气象站数据。数据集覆盖全球,时间范围从1981年至今,空间分辨率为0.05度。
www.chc.ucsb.edu 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
Student Score Dataset
这是一个关于不同族裔学生成绩的数据集,涵盖了多个学科的成绩分析。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录