five

email-Eu

收藏
Hugging Face2026-02-16 更新2026-02-17 收录
下载链接:
https://huggingface.co/datasets/daqh/email-Eu
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为 'email-Eu',可能与超图(hypergraph)结构相关,适用于高阶链接预测(higher-order link prediction)的研究。数据集的具体内容和规模未在 README 中详细描述,但相关研究发表在《Proceedings of the National Academy of Sciences》上,标题为 'Simplicial closure and higher-order link prediction',作者包括 Austin R. Benson 等人。
创建时间:
2026-02-09
搜集汇总
数据集介绍
构建方式
在复杂网络分析领域,超图模型因其能够捕捉多元交互而备受关注。email-Eu数据集的构建源于欧洲某大型研究机构的匿名化电子邮件通信记录,通过将每封邮件建模为一个超边,其中包含发件人和所有收件人,从而精确地再现了群体互动模式。具体而言,该数据集从共享相同时间戳的(发件人、收件人、时间戳)元组中重构出超边结构,节点则限定为机构内部的电子邮件地址,同时排除了参与者超过25人的邮件,确保了数据的代表性与可处理性。
特点
该数据集的核心特征在于其高阶网络结构的完整性与丰富的附加信息。它不仅提供了基础的超图拓扑,还以HIF格式存储,便于跨工具交换数据。更为突出的是,数据集为节点和超边配备了多种向量特征,包括基于超图拉普拉斯矩阵的谱特征、Node2Vec的结构嵌入以及VilLain的自监督表示学习嵌入,这些特征为图表示学习和下游任务提供了即用的实验基础。数据规模适中,包含998个节点和25027个超边,且最大连通分量比例接近0.98,保证了网络的连通性。
使用方法
使用email-Eu数据集时,可通过HuggingFace平台直接加载,并利用xgi库将HIF格式的JSON对象转换为超图对象,便于进一步分析。研究人员可以基于其提供的拓扑结构和向量特征,开展高阶链接预测、社区检测或节点分类等任务。数据集的设计兼顾了易用性与扩展性,允许用户专注于算法开发而不必预处理原始数据,为超图机器学习研究提供了标准化的基准资源。
背景与挑战
背景概述
在复杂网络科学领域,传统图模型常局限于成对交互的表示,难以捕捉现实世界中普遍存在的群体互动模式。为应对这一局限,email-Eu数据集应运而生,由康奈尔大学等机构的研究团队于2018年创建,其核心研究问题聚焦于通过超图结构建模电子邮件通信中的高阶交互,以推动超图机器学习的发展。该数据集基于一家大型欧洲研究机构的匿名邮件数据构建,通过将每封邮件建模为包含发件人和所有收件人的超边,有效捕获了群体通信的动态特征,为社交网络分析、社区检测及链路预测等任务提供了重要的实证基础,显著促进了高阶网络分析方法的创新与应用。
当前挑战
email-Eu数据集旨在解决高阶网络建模中的核心挑战,即如何准确表征群体交互而非仅限二元关系,这要求模型能处理超边大小分布不均及稀疏连接等问题。在构建过程中,研究团队面临数据清洗与重构的复杂性,需从原始(发件人、收件人、时间戳)元组中识别同一邮件的所有参与者,同时排除涉及超过25名参与者的异常邮件以控制噪声。此外,数据匿名化与机构内部通信的限定引入了结构偏差,可能影响泛化能力,而超图的高维性与连通组件的碎片化进一步增加了机器学习任务的难度。
常用场景
经典使用场景
在超图机器学习领域,email-Eu数据集作为典型的高阶网络数据,常被用于研究群体交互行为的建模与分析。该数据集源自欧洲某大型研究机构的匿名邮件通信记录,通过将每封邮件建模为包含发送者和所有接收者的超边,精确捕捉了现实世界中多人参与的通信模式。研究者利用其拓扑结构和节点特征,探索超图上的表示学习、社区检测以及链路预测等任务,为理解复杂社交网络中的高阶动力学提供了实证基础。
解决学术问题
email-Eu数据集有效解决了高阶网络分析中的若干核心学术问题,特别是针对传统图模型难以处理的群体交互场景。它使得研究者能够实证检验超图上的闭包理论、高阶链路预测算法以及社区结构的涌现机制。通过提供真实的群体通信数据,该数据集推动了超图表示学习、谱聚类以及动态网络建模等方法的发展,为复杂系统科学和社会网络分析提供了关键的数据支撑,促进了高阶交互建模的理论与实证融合。
衍生相关工作
围绕email-Eu数据集,学术界衍生了一系列经典研究工作。例如,Benson等人2018年在《美国国家科学院院刊》发表的论文利用该数据验证了单纯闭包理论在高阶链路预测中的有效性。后续研究则基于其提供的节点与超边特征,开发了如VilLain等自监督超图表示学习框架。这些工作不仅深化了对群体社交动力学的理解,也推动了超图神经网络、高阶随机游走嵌入等算法的发展,为复杂网络分析领域奠定了重要的方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作