HTAG|图数据数据集|算法测试数据集
收藏Multi-Scale Heterogeneous Text-Attributed Graph Datasets From Diverse Domains
数据集概述
- 多尺度:HTAG数据集涵盖多个尺度,从小型(24K节点,104K边)到大型(5.6M节点,29.8M边)。小型数据集适合测试计算密集型算法,而大型数据集如DBLP和Patent支持开发利用小批量和分布式训练的可扩展模型。
- 多领域:HTAG数据集包括代表广泛领域的异构图:电影合作、社区问答、学术、图书出版和专利申请。广泛的领域覆盖有助于开发和展示图基础模型,并帮助区分它们与领域特定方法。
- 现实且可复现的评估:提供了一个自动化评估管道,简化了数据处理、加载和模型评估,确保无缝复现性。此外,每个数据集都采用基于时间的分割,提供了比传统随机分割更现实和有意义的评估。
- 开源数据集构建代码:已发布构建HTAG数据集的完整代码,允许研究人员构建更大、更复杂的异构文本属性图数据集。例如,CroVal数据集构建代码可用于创建Web规模的社区问答网络。
下载
python from huggingface_hub import snapshot_download
下载全部
snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data")
仅下载异构图和基于PLM的节点特征
snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns="*.pkl")
仅下载原始文本
snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns=[".csv", ".csv.zip"])
数据集格式
数据集包括异构图边、原始文本、基于PLM的特征、标签和与文本属性节点相关的年份。原始文本以.csv
或.csv.zip
文件提供,其余数据存储在.pkl
文件中的字典对象内。
数据集统计
# Nodes | # Edges | # Classes | # Splits | |
---|---|---|---|---|
TMDB | 24,412 | 104,858 | 4 | Train: 5,698 |
Movie: 7,505 | Movie-Actor: 86,517 | Valid: 711 | ||
Actor: 13,016 | Movie-Director: 18,341 | Test: 1,096 | ||
Director: 3,891 | ||||
CroVal | 44386 | 164,981 | 6 | Train: 980 |
Question: 34153 | Question-Question: 46,269 | Valid: 1,242 | ||
User: 8898 | Question-User: 34,153 | Test: 31,931 | ||
Tag: 1335 | Question-Tag: 84,559 | |||
ArXiv | 231,111 | 2,075,692 | 40 | Train: 47,084 |
Paper: 81,634 | Paper-Paper: 1,019,624 | Valid: 18,170 | ||
Author: 127,590 | Paper-Author: 300,233 | Test: 16,380 | ||
FoS: 21,887 | Paper-FoS: 755,835 | |||
Book | 786,257 | 9,035,291 | 8 | Train: 330,201 |
Book | Book-Book: 7,614,902 | Valid: 57,220 | ||
Author | Book-Author: 825,905 | Test: 207,063 | ||
Publisher | Book-Publisher: 594,484 | |||
DBLP | 1,989,010 | 29,830,033 | 9 | Train: 508,464 |
Paper: 964350 | Paper-Paper: 16,679,526 | Valid: 158,891 | ||
Author: 958961 | Paper-Author: 3,070,343 | Test: 296,995 | ||
FoS: 65699 | Paper-FoS: 10,080,164 | |||
Patent | 5,646,139 | 8,833,738 | 120 | Train: 1,705,155 |
Patent: 2,762,187 | Patent-Inventor: 6,071,551 | Valid: 374,275 | ||
Inventor: 2,873,311 | Patent-Examiner: 2,762,187 | Test: 682,757 | ||
Examiner: 10,641 |
数据集构建
数据集构建代码可在每个graph_builder.ipynb
文件中找到。请参阅每个子文件夹中的README.md
以获取更多详细信息。

Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
Coffee_Shop_Sales
该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
熟肉制品在全国需求价格弹性分析数据
为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。
浙江省数据知识产权登记平台 收录
ISIC 2018
ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。
challenge2018.isic-archive.com 收录