HTAG|图数据数据集|算法测试数据集
收藏Multi-Scale Heterogeneous Text-Attributed Graph Datasets From Diverse Domains
数据集概述
- 多尺度:HTAG数据集涵盖多个尺度,从小型(24K节点,104K边)到大型(5.6M节点,29.8M边)。小型数据集适合测试计算密集型算法,而大型数据集如DBLP和Patent支持开发利用小批量和分布式训练的可扩展模型。
- 多领域:HTAG数据集包括代表广泛领域的异构图:电影合作、社区问答、学术、图书出版和专利申请。广泛的领域覆盖有助于开发和展示图基础模型,并帮助区分它们与领域特定方法。
- 现实且可复现的评估:提供了一个自动化评估管道,简化了数据处理、加载和模型评估,确保无缝复现性。此外,每个数据集都采用基于时间的分割,提供了比传统随机分割更现实和有意义的评估。
- 开源数据集构建代码:已发布构建HTAG数据集的完整代码,允许研究人员构建更大、更复杂的异构文本属性图数据集。例如,CroVal数据集构建代码可用于创建Web规模的社区问答网络。
下载
python from huggingface_hub import snapshot_download
下载全部
snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data")
仅下载异构图和基于PLM的节点特征
snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns="*.pkl")
仅下载原始文本
snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns=[".csv", ".csv.zip"])
数据集格式
数据集包括异构图边、原始文本、基于PLM的特征、标签和与文本属性节点相关的年份。原始文本以.csv
或.csv.zip
文件提供,其余数据存储在.pkl
文件中的字典对象内。
数据集统计
# Nodes | # Edges | # Classes | # Splits | |
---|---|---|---|---|
TMDB | 24,412 | 104,858 | 4 | Train: 5,698 |
Movie: 7,505 | Movie-Actor: 86,517 | Valid: 711 | ||
Actor: 13,016 | Movie-Director: 18,341 | Test: 1,096 | ||
Director: 3,891 | ||||
CroVal | 44386 | 164,981 | 6 | Train: 980 |
Question: 34153 | Question-Question: 46,269 | Valid: 1,242 | ||
User: 8898 | Question-User: 34,153 | Test: 31,931 | ||
Tag: 1335 | Question-Tag: 84,559 | |||
ArXiv | 231,111 | 2,075,692 | 40 | Train: 47,084 |
Paper: 81,634 | Paper-Paper: 1,019,624 | Valid: 18,170 | ||
Author: 127,590 | Paper-Author: 300,233 | Test: 16,380 | ||
FoS: 21,887 | Paper-FoS: 755,835 | |||
Book | 786,257 | 9,035,291 | 8 | Train: 330,201 |
Book | Book-Book: 7,614,902 | Valid: 57,220 | ||
Author | Book-Author: 825,905 | Test: 207,063 | ||
Publisher | Book-Publisher: 594,484 | |||
DBLP | 1,989,010 | 29,830,033 | 9 | Train: 508,464 |
Paper: 964350 | Paper-Paper: 16,679,526 | Valid: 158,891 | ||
Author: 958961 | Paper-Author: 3,070,343 | Test: 296,995 | ||
FoS: 65699 | Paper-FoS: 10,080,164 | |||
Patent | 5,646,139 | 8,833,738 | 120 | Train: 1,705,155 |
Patent: 2,762,187 | Patent-Inventor: 6,071,551 | Valid: 374,275 | ||
Inventor: 2,873,311 | Patent-Examiner: 2,762,187 | Test: 682,757 | ||
Examiner: 10,641 |
数据集构建
数据集构建代码可在每个graph_builder.ipynb
文件中找到。请参阅每个子文件夹中的README.md
以获取更多详细信息。

OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录