HTAG|图数据数据集|算法测试数据集

huggingface2024-12-13 更新2024-12-14 收录

图数据

算法测试

下载链接：

https://huggingface.co/datasets/Cloudy1225/HTAG

下载链接

链接失效反馈

资源简介：

HTAG数据集是一个多尺度的异构文本属性图数据集，涵盖了从小型到大型不等的多尺度数据，适用于不同计算需求的算法测试和模型开发。数据集包含了来自多个领域的异构图，如电影合作、社区问答、学术、图书出版和专利申请，这有助于开发和验证图基础模型。数据集提供了自动化评估管道，确保数据处理和模型评估的可重复性。此外，数据集的构建代码是开源的，允许研究人员扩展和复制数据集。

创建时间：

2024-12-10

原始信息汇总

Multi-Scale Heterogeneous Text-Attributed Graph Datasets From Diverse Domains

数据集概述

多尺度：HTAG数据集涵盖多个尺度，从小型（24K节点，104K边）到大型（5.6M节点，29.8M边）。小型数据集适合测试计算密集型算法，而大型数据集如DBLP和Patent支持开发利用小批量和分布式训练的可扩展模型。
多领域：HTAG数据集包括代表广泛领域的异构图：电影合作、社区问答、学术、图书出版和专利申请。广泛的领域覆盖有助于开发和展示图基础模型，并帮助区分它们与领域特定方法。
现实且可复现的评估：提供了一个自动化评估管道，简化了数据处理、加载和模型评估，确保无缝复现性。此外，每个数据集都采用基于时间的分割，提供了比传统随机分割更现实和有意义的评估。
开源数据集构建代码：已发布构建HTAG数据集的完整代码，允许研究人员构建更大、更复杂的异构文本属性图数据集。例如，CroVal数据集构建代码可用于创建Web规模的社区问答网络。

下载

python from huggingface_hub import snapshot_download

下载全部

snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data")

仅下载异构图和基于PLM的节点特征

snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns="*.pkl")

仅下载原始文本

snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns=[".csv", ".csv.zip"])

数据集格式

数据集包括异构图边、原始文本、基于PLM的特征、标签和与文本属性节点相关的年份。原始文本以.csv或.csv.zip文件提供，其余数据存储在.pkl文件中的字典对象内。

数据集统计

	# Nodes	# Edges	# Classes	# Splits
TMDB	24,412	104,858	4	Train: 5,698
	Movie: 7,505	Movie-Actor: 86,517		Valid: 711
	Actor: 13,016	Movie-Director: 18,341		Test: 1,096
	Director: 3,891
CroVal	44386	164,981	6	Train: 980
	Question: 34153	Question-Question: 46,269		Valid: 1,242
	User: 8898	Question-User: 34,153		Test: 31,931
	Tag: 1335	Question-Tag: 84,559
ArXiv	231,111	2,075,692	40	Train: 47,084
	Paper: 81,634	Paper-Paper: 1,019,624		Valid: 18,170
	Author: 127,590	Paper-Author: 300,233		Test: 16,380
	FoS: 21,887	Paper-FoS: 755,835
Book	786,257	9,035,291	8	Train: 330,201
	Book	Book-Book: 7,614,902		Valid: 57,220
	Author	Book-Author: 825,905		Test: 207,063
	Publisher	Book-Publisher: 594,484
DBLP	1,989,010	29,830,033	9	Train: 508,464
	Paper: 964350	Paper-Paper: 16,679,526		Valid: 158,891
	Author: 958961	Paper-Author: 3,070,343		Test: 296,995
	FoS: 65699	Paper-FoS: 10,080,164
Patent	5,646,139	8,833,738	120	Train: 1,705,155
	Patent: 2,762,187	Patent-Inventor: 6,071,551		Valid: 374,275
	Inventor: 2,873,311	Patent-Examiner: 2,762,187		Test: 682,757
	Examiner: 10,641

数据集构建

数据集构建代码可在每个graph_builder.ipynb文件中找到。请参阅每个子文件夹中的README.md以获取更多详细信息。

AI搜集汇总

数据集介绍

构建方式

HTAG数据集的构建方式体现了多尺度与多领域的深度融合。该数据集涵盖了从小规模（24K节点，104K边）到大规模（5.6M节点，29.8M边）的多种尺度，适用于不同计算需求的算法测试与模型开发。其构建过程不仅包括了电影合作、社区问答、学术出版、书籍出版及专利申请等多个领域的异构图数据，还提供了自动化评估流水线，确保数据处理、加载及模型评估的便捷性与可重复性。此外，时间序列的数据分割方法进一步提升了评估的真实性与有效性。

使用方法

HTAG数据集的使用方法灵活多样。用户可以通过HuggingFace平台下载整个数据集或选择性下载特定部分，如异构图、预训练语言模型（PLM）特征或原始文本。数据集格式包括`.csv`或`.csv.zip`文件的原始文本，以及存储在`.pkl`文件中的图结构、特征、标签和时间信息。通过读取这些文件，用户可以轻松获取图数据及其相关属性，便于进行图机器学习模型的训练与评估。

背景与挑战

背景概述

HTAG数据集是由Cloudy1225团队创建的多尺度异构文本属性图数据集，涵盖了从电影合作、社区问答、学术研究、图书出版到专利申请等多个领域。该数据集的核心研究问题在于如何有效处理和分析异构图结构中的文本属性，以推动图基础模型的发展。HTAG数据集的构建旨在支持大规模图模型的开发与评估，通过提供多尺度的数据集，从小型到大型，研究人员可以在不同计算复杂度的场景下测试和优化算法。此外，该数据集的开放源代码和自动化评估管道为研究者提供了可重复性和扩展性的工具，进一步推动了图机器学习领域的发展。

当前挑战

HTAG数据集面临的挑战主要集中在异构图的处理和文本属性的融合上。首先，异构图的多样性使得模型需要具备处理不同类型节点和边的能力，这对算法的泛化性和效率提出了高要求。其次，文本属性的引入增加了数据的复杂性，如何在图结构中有效嵌入和利用文本信息是一个关键难题。此外，数据集的多尺度特性要求模型具备良好的可扩展性，以应对从小规模到大规模数据的训练需求。最后，数据集的构建过程中，如何确保数据的质量、一致性和可重复性也是一大挑战，尤其是在处理来自不同领域的异构数据时。

常用场景

经典使用场景

HTAG数据集的经典使用场景主要集中在多尺度异构文本属性图的建模与分析。该数据集涵盖了从电影合作、社区问答到学术出版和专利申请等多个领域，适用于开发和测试图神经网络（GNN）模型。通过利用HTAG数据集，研究者可以探索如何在不同尺度和复杂度的图结构中进行节点分类、链接预测和图嵌入等任务，从而推动图机器学习的前沿研究。

解决学术问题

HTAG数据集解决了图机器学习领域中多尺度异构图数据的建模难题。传统的图数据集通常局限于单一尺度或特定领域，而HTAG通过提供多领域、多尺度的异构图数据，为研究者提供了一个更为全面和真实的实验平台。这不仅有助于验证现有算法的泛化能力，还为开发新的图基础模型提供了丰富的数据支持，推动了图机器学习领域的进一步发展。

实际应用

HTAG数据集在实际应用中具有广泛的潜力，特别是在社交网络分析、知识图谱构建和推荐系统等领域。例如，在社交网络中，HTAG可以用于分析用户与内容之间的复杂关系，从而提升个性化推荐的效果；在知识图谱中，HTAG可以帮助构建更为复杂的实体关系网络，提升知识推理的准确性；在专利分析中，HTAG可以用于挖掘专利之间的技术关联，为技术创新提供支持。

数据集最近研究

最新研究方向

近年来，HTAG数据集在图机器学习领域引起了广泛关注，尤其是在多尺度异构文本属性图的研究中。该数据集涵盖了从电影合作、社区问答到学术出版和专利申请等多个领域，为图基础模型的开发提供了丰富的资源。研究者们正致力于利用HTAG数据集探索更高效的图神经网络模型，特别是在大规模数据上的可扩展性和性能优化。此外，HTAG数据集的开放源代码和自动化评估管道为研究者提供了强大的工具，促进了图数据处理和模型评估的标准化，进一步推动了图机器学习领域的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录