HTAG

Hugging Face2024-12-13 更新2024-12-14 收录

下载链接：

https://huggingface.co/datasets/Cloudy1225/HTAG

下载链接

链接失效反馈

官方服务：

资源简介：

HTAG数据集是一个多尺度的异构文本属性图数据集，涵盖了从小型到大型不等的多尺度数据，适用于不同计算需求的算法测试和模型开发。数据集包含了来自多个领域的异构图，如电影合作、社区问答、学术、图书出版和专利申请，这有助于开发和验证图基础模型。数据集提供了自动化评估管道，确保数据处理和模型评估的可重复性。此外，数据集的构建代码是开源的，允许研究人员扩展和复制数据集。

创建时间：

2024-12-10

原始信息汇总

Multi-Scale Heterogeneous Text-Attributed Graph Datasets From Diverse Domains

数据集概述

多尺度：HTAG数据集涵盖多个尺度，从小型（24K节点，104K边）到大型（5.6M节点，29.8M边）。小型数据集适合测试计算密集型算法，而大型数据集如DBLP和Patent支持开发利用小批量和分布式训练的可扩展模型。
多领域：HTAG数据集包括代表广泛领域的异构图：电影合作、社区问答、学术、图书出版和专利申请。广泛的领域覆盖有助于开发和展示图基础模型，并帮助区分它们与领域特定方法。
现实且可复现的评估：提供了一个自动化评估管道，简化了数据处理、加载和模型评估，确保无缝复现性。此外，每个数据集都采用基于时间的分割，提供了比传统随机分割更现实和有意义的评估。
开源数据集构建代码：已发布构建HTAG数据集的完整代码，允许研究人员构建更大、更复杂的异构文本属性图数据集。例如，CroVal数据集构建代码可用于创建Web规模的社区问答网络。

下载

python from huggingface_hub import snapshot_download

下载全部

snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data")

仅下载异构图和基于PLM的节点特征

snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns="*.pkl")

仅下载原始文本

snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns=[".csv", ".csv.zip"])

数据集格式

数据集包括异构图边、原始文本、基于PLM的特征、标签和与文本属性节点相关的年份。原始文本以.csv或.csv.zip文件提供，其余数据存储在.pkl文件中的字典对象内。

数据集统计

	# Nodes	# Edges	# Classes	# Splits
TMDB	24,412	104,858	4	Train: 5,698
	Movie: 7,505	Movie-Actor: 86,517		Valid: 711
	Actor: 13,016	Movie-Director: 18,341		Test: 1,096
	Director: 3,891
CroVal	44386	164,981	6	Train: 980
	Question: 34153	Question-Question: 46,269		Valid: 1,242
	User: 8898	Question-User: 34,153		Test: 31,931
	Tag: 1335	Question-Tag: 84,559
ArXiv	231,111	2,075,692	40	Train: 47,084
	Paper: 81,634	Paper-Paper: 1,019,624		Valid: 18,170
	Author: 127,590	Paper-Author: 300,233		Test: 16,380
	FoS: 21,887	Paper-FoS: 755,835
Book	786,257	9,035,291	8	Train: 330,201
	Book	Book-Book: 7,614,902		Valid: 57,220
	Author	Book-Author: 825,905		Test: 207,063
	Publisher	Book-Publisher: 594,484
DBLP	1,989,010	29,830,033	9	Train: 508,464
	Paper: 964350	Paper-Paper: 16,679,526		Valid: 158,891
	Author: 958961	Paper-Author: 3,070,343		Test: 296,995
	FoS: 65699	Paper-FoS: 10,080,164
Patent	5,646,139	8,833,738	120	Train: 1,705,155
	Patent: 2,762,187	Patent-Inventor: 6,071,551		Valid: 374,275
	Inventor: 2,873,311	Patent-Examiner: 2,762,187		Test: 682,757
	Examiner: 10,641

数据集构建

数据集构建代码可在每个graph_builder.ipynb文件中找到。请参阅每个子文件夹中的README.md以获取更多详细信息。

搜集汇总

数据集介绍

构建方式

HTAG数据集的构建方式体现了多尺度与多领域的深度融合。该数据集涵盖了从小规模（24K节点，104K边）到大规模（5.6M节点，29.8M边）的多种尺度，适用于不同计算需求的算法测试与模型开发。其构建过程不仅包括了电影合作、社区问答、学术出版、书籍出版及专利申请等多个领域的异构图数据，还提供了自动化评估流水线，确保数据处理、加载及模型评估的便捷性与可重复性。此外，时间序列的数据分割方法进一步提升了评估的真实性与有效性。

使用方法

HTAG数据集的使用方法灵活多样。用户可以通过HuggingFace平台下载整个数据集或选择性下载特定部分，如异构图、预训练语言模型（PLM）特征或原始文本。数据集格式包括`.csv`或`.csv.zip`文件的原始文本，以及存储在`.pkl`文件中的图结构、特征、标签和时间信息。通过读取这些文件，用户可以轻松获取图数据及其相关属性，便于进行图机器学习模型的训练与评估。

背景与挑战

背景概述

HTAG数据集是由Cloudy1225团队创建的多尺度异构文本属性图数据集，涵盖了从电影合作、社区问答、学术研究、图书出版到专利申请等多个领域。该数据集的核心研究问题在于如何有效处理和分析异构图结构中的文本属性，以推动图基础模型的发展。HTAG数据集的构建旨在支持大规模图模型的开发与评估，通过提供多尺度的数据集，从小型到大型，研究人员可以在不同计算复杂度的场景下测试和优化算法。此外，该数据集的开放源代码和自动化评估管道为研究者提供了可重复性和扩展性的工具，进一步推动了图机器学习领域的发展。

当前挑战

HTAG数据集面临的挑战主要集中在异构图的处理和文本属性的融合上。首先，异构图的多样性使得模型需要具备处理不同类型节点和边的能力，这对算法的泛化性和效率提出了高要求。其次，文本属性的引入增加了数据的复杂性，如何在图结构中有效嵌入和利用文本信息是一个关键难题。此外，数据集的多尺度特性要求模型具备良好的可扩展性，以应对从小规模到大规模数据的训练需求。最后，数据集的构建过程中，如何确保数据的质量、一致性和可重复性也是一大挑战，尤其是在处理来自不同领域的异构数据时。

常用场景

经典使用场景

HTAG数据集的经典使用场景主要集中在多尺度异构文本属性图的建模与分析。该数据集涵盖了从电影合作、社区问答到学术出版和专利申请等多个领域，适用于开发和测试图神经网络（GNN）模型。通过利用HTAG数据集，研究者可以探索如何在不同尺度和复杂度的图结构中进行节点分类、链接预测和图嵌入等任务，从而推动图机器学习的前沿研究。

解决学术问题

HTAG数据集解决了图机器学习领域中多尺度异构图数据的建模难题。传统的图数据集通常局限于单一尺度或特定领域，而HTAG通过提供多领域、多尺度的异构图数据，为研究者提供了一个更为全面和真实的实验平台。这不仅有助于验证现有算法的泛化能力，还为开发新的图基础模型提供了丰富的数据支持，推动了图机器学习领域的进一步发展。

实际应用

HTAG数据集在实际应用中具有广泛的潜力，特别是在社交网络分析、知识图谱构建和推荐系统等领域。例如，在社交网络中，HTAG可以用于分析用户与内容之间的复杂关系，从而提升个性化推荐的效果；在知识图谱中，HTAG可以帮助构建更为复杂的实体关系网络，提升知识推理的准确性；在专利分析中，HTAG可以用于挖掘专利之间的技术关联，为技术创新提供支持。

数据集最近研究