five

HTAG|图数据数据集|算法测试数据集

收藏
huggingface2024-12-13 更新2024-12-14 收录
图数据
算法测试
下载链接:
https://huggingface.co/datasets/Cloudy1225/HTAG
下载链接
链接失效反馈
资源简介:
HTAG数据集是一个多尺度的异构文本属性图数据集,涵盖了从小型到大型不等的多尺度数据,适用于不同计算需求的算法测试和模型开发。数据集包含了来自多个领域的异构图,如电影合作、社区问答、学术、图书出版和专利申请,这有助于开发和验证图基础模型。数据集提供了自动化评估管道,确保数据处理和模型评估的可重复性。此外,数据集的构建代码是开源的,允许研究人员扩展和复制数据集。
创建时间:
2024-12-10
原始信息汇总

Multi-Scale Heterogeneous Text-Attributed Graph Datasets From Diverse Domains

数据集概述

  • 多尺度:HTAG数据集涵盖多个尺度,从小型(24K节点,104K边)到大型(5.6M节点,29.8M边)。小型数据集适合测试计算密集型算法,而大型数据集如DBLP和Patent支持开发利用小批量和分布式训练的可扩展模型。
  • 多领域:HTAG数据集包括代表广泛领域的异构图:电影合作、社区问答、学术、图书出版和专利申请。广泛的领域覆盖有助于开发和展示图基础模型,并帮助区分它们与领域特定方法。
  • 现实且可复现的评估:提供了一个自动化评估管道,简化了数据处理、加载和模型评估,确保无缝复现性。此外,每个数据集都采用基于时间的分割,提供了比传统随机分割更现实和有意义的评估。
  • 开源数据集构建代码:已发布构建HTAG数据集的完整代码,允许研究人员构建更大、更复杂的异构文本属性图数据集。例如,CroVal数据集构建代码可用于创建Web规模的社区问答网络。

下载

python from huggingface_hub import snapshot_download

下载全部

snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data")

仅下载异构图和基于PLM的节点特征

snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns="*.pkl")

仅下载原始文本

snapshot_download(repo_id="Cloudy1225/HTAG", repo_type="dataset", local_dir="./data", allow_patterns=[".csv", ".csv.zip"])

数据集格式

数据集包括异构图边、原始文本、基于PLM的特征、标签和与文本属性节点相关的年份。原始文本以.csv.csv.zip文件提供,其余数据存储在.pkl文件中的字典对象内。

数据集统计

# Nodes # Edges # Classes # Splits
TMDB 24,412 104,858 4 Train: 5,698
Movie: 7,505 Movie-Actor: 86,517 Valid: 711
Actor: 13,016 Movie-Director: 18,341 Test: 1,096
Director: 3,891
CroVal 44386 164,981 6 Train: 980
Question: 34153 Question-Question: 46,269 Valid: 1,242
User: 8898 Question-User: 34,153 Test: 31,931
Tag: 1335 Question-Tag: 84,559
ArXiv 231,111 2,075,692 40 Train: 47,084
Paper: 81,634 Paper-Paper: 1,019,624 Valid: 18,170
Author: 127,590 Paper-Author: 300,233 Test: 16,380
FoS: 21,887 Paper-FoS: 755,835
Book 786,257 9,035,291 8 Train: 330,201
Book Book-Book: 7,614,902 Valid: 57,220
Author Book-Author: 825,905 Test: 207,063
Publisher Book-Publisher: 594,484
DBLP 1,989,010 29,830,033 9 Train: 508,464
Paper: 964350 Paper-Paper: 16,679,526 Valid: 158,891
Author: 958961 Paper-Author: 3,070,343 Test: 296,995
FoS: 65699 Paper-FoS: 10,080,164
Patent 5,646,139 8,833,738 120 Train: 1,705,155
Patent: 2,762,187 Patent-Inventor: 6,071,551 Valid: 374,275
Inventor: 2,873,311 Patent-Examiner: 2,762,187 Test: 682,757
Examiner: 10,641

数据集构建

数据集构建代码可在每个graph_builder.ipynb文件中找到。请参阅每个子文件夹中的README.md以获取更多详细信息。

AI搜集汇总
数据集介绍
main_image_url
构建方式
HTAG数据集的构建方式体现了多尺度与多领域的深度融合。该数据集涵盖了从小规模(24K节点,104K边)到大规模(5.6M节点,29.8M边)的多种尺度,适用于不同计算需求的算法测试与模型开发。其构建过程不仅包括了电影合作、社区问答、学术出版、书籍出版及专利申请等多个领域的异构图数据,还提供了自动化评估流水线,确保数据处理、加载及模型评估的便捷性与可重复性。此外,时间序列的数据分割方法进一步提升了评估的真实性与有效性。
使用方法
HTAG数据集的使用方法灵活多样。用户可以通过HuggingFace平台下载整个数据集或选择性下载特定部分,如异构图、预训练语言模型(PLM)特征或原始文本。数据集格式包括`.csv`或`.csv.zip`文件的原始文本,以及存储在`.pkl`文件中的图结构、特征、标签和时间信息。通过读取这些文件,用户可以轻松获取图数据及其相关属性,便于进行图机器学习模型的训练与评估。
背景与挑战
背景概述
HTAG数据集是由Cloudy1225团队创建的多尺度异构文本属性图数据集,涵盖了从电影合作、社区问答、学术研究、图书出版到专利申请等多个领域。该数据集的核心研究问题在于如何有效处理和分析异构图结构中的文本属性,以推动图基础模型的发展。HTAG数据集的构建旨在支持大规模图模型的开发与评估,通过提供多尺度的数据集,从小型到大型,研究人员可以在不同计算复杂度的场景下测试和优化算法。此外,该数据集的开放源代码和自动化评估管道为研究者提供了可重复性和扩展性的工具,进一步推动了图机器学习领域的发展。
当前挑战
HTAG数据集面临的挑战主要集中在异构图的处理和文本属性的融合上。首先,异构图的多样性使得模型需要具备处理不同类型节点和边的能力,这对算法的泛化性和效率提出了高要求。其次,文本属性的引入增加了数据的复杂性,如何在图结构中有效嵌入和利用文本信息是一个关键难题。此外,数据集的多尺度特性要求模型具备良好的可扩展性,以应对从小规模到大规模数据的训练需求。最后,数据集的构建过程中,如何确保数据的质量、一致性和可重复性也是一大挑战,尤其是在处理来自不同领域的异构数据时。
常用场景
经典使用场景
HTAG数据集的经典使用场景主要集中在多尺度异构文本属性图的建模与分析。该数据集涵盖了从电影合作、社区问答到学术出版和专利申请等多个领域,适用于开发和测试图神经网络(GNN)模型。通过利用HTAG数据集,研究者可以探索如何在不同尺度和复杂度的图结构中进行节点分类、链接预测和图嵌入等任务,从而推动图机器学习的前沿研究。
解决学术问题
HTAG数据集解决了图机器学习领域中多尺度异构图数据的建模难题。传统的图数据集通常局限于单一尺度或特定领域,而HTAG通过提供多领域、多尺度的异构图数据,为研究者提供了一个更为全面和真实的实验平台。这不仅有助于验证现有算法的泛化能力,还为开发新的图基础模型提供了丰富的数据支持,推动了图机器学习领域的进一步发展。
实际应用
HTAG数据集在实际应用中具有广泛的潜力,特别是在社交网络分析、知识图谱构建和推荐系统等领域。例如,在社交网络中,HTAG可以用于分析用户与内容之间的复杂关系,从而提升个性化推荐的效果;在知识图谱中,HTAG可以帮助构建更为复杂的实体关系网络,提升知识推理的准确性;在专利分析中,HTAG可以用于挖掘专利之间的技术关联,为技术创新提供支持。
数据集最近研究
最新研究方向
近年来,HTAG数据集在图机器学习领域引起了广泛关注,尤其是在多尺度异构文本属性图的研究中。该数据集涵盖了从电影合作、社区问答到学术出版和专利申请等多个领域,为图基础模型的开发提供了丰富的资源。研究者们正致力于利用HTAG数据集探索更高效的图神经网络模型,特别是在大规模数据上的可扩展性和性能优化。此外,HTAG数据集的开放源代码和自动化评估管道为研究者提供了强大的工具,促进了图数据处理和模型评估的标准化,进一步推动了图机器学习领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

熟肉制品在全国需求价格弹性分析数据

为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。

浙江省数据知识产权登记平台 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录