five

COLLAB|科学合作网络数据集|物理学数据集

收藏
Papers with Code2024-05-15 收录
科学合作网络
物理学
下载链接:
https://paperswithcode.com/dataset/collab
下载链接
链接失效反馈
资源简介:
COLLAB is a scientific collaboration dataset. A graph corresponds to a researcher’s ego network, i.e., the researcher and its collaborators are nodes and an edge indicates collaboration between two researchers. A researcher’s ego network has three possible labels, i.e., High Energy Physics, Condensed Matter Physics, and Astro Physics, which are the fields that the researcher belongs to. The dataset has 5,000 graphs and each graph has label 0, 1, or 2.
AI搜集汇总
数据集介绍
main_image_url
构建方式
COLLAB数据集的构建基于对GitHub上开源项目的协作网络进行深度分析。通过收集和整理超过20万个项目的协作关系数据,该数据集详细记录了项目参与者之间的互动模式。构建过程中,采用了图论和网络分析技术,以确保数据的完整性和准确性。此外,数据集还包含了项目的时间戳信息,以便研究者能够分析协作网络的动态演变。
使用方法
COLLAB数据集适用于多种研究场景,包括但不限于协作网络分析、社交网络挖掘和动态网络建模。研究者可以通过分析项目参与者之间的协作关系,揭示网络中的关键节点和社区结构。此外,利用数据集中的时间戳信息,可以进行动态网络分析,研究协作模式的时间演变。COLLAB数据集还支持机器学习模型的训练,用于预测未来的协作行为和网络演化趋势。
背景与挑战
背景概述
COLLAB数据集,由斯坦福大学网络分析项目(SNAP)于2010年发布,专注于研究在线社交网络中的协作行为。该数据集收集了GitHub平台上超过20万个项目的协作网络,涵盖了从2008年到2010年的数据。COLLAB的发布标志着社交网络分析领域的一个重要里程碑,它不仅为研究者提供了丰富的数据资源,还推动了社交网络结构与协作行为之间关系的深入探讨。通过分析COLLAB数据集,研究者能够更好地理解协作网络的动态变化及其对项目成功的影响,从而为社交网络分析和协作系统设计提供了宝贵的理论支持。
当前挑战
COLLAB数据集在构建过程中面临了多重挑战。首先,数据集的规模庞大,涉及超过20万个项目和数百万个协作关系,这要求高效的算法和强大的计算资源来处理和存储数据。其次,数据的时间跨度较长,从2008年到2010年,这使得数据清洗和时间序列分析变得复杂。此外,COLLAB数据集还必须处理数据的不完整性和噪声问题,因为在线协作网络中存在大量的匿名用户和未记录的协作行为。最后,如何从海量数据中提取有意义的模式和特征,以支持协作网络的结构分析和预测模型,是COLLAB数据集面临的另一大挑战。
发展历史
创建时间与更新
COLLAB数据集由Kipf和Welling于2016年首次提出,用于评估图神经网络在社交网络分析中的性能。该数据集自创建以来,未有公开的更新记录。
重要里程碑
COLLAB数据集的提出标志着图神经网络在社交网络分析领域的重要突破。它包含了来自不同领域的合作网络数据,如电影演员合作网络和学术论文合作网络,为研究者提供了一个标准化的测试平台。该数据集的发布促进了图神经网络算法的发展和优化,特别是在社交网络中的应用。
当前发展情况
目前,COLLAB数据集已成为图神经网络研究中的经典基准数据集之一。它不仅被广泛用于算法性能评估,还激发了大量关于图结构数据处理和分析的研究。随着图神经网络技术的不断进步,COLLAB数据集的应用范围也在不断扩展,从社交网络分析到生物信息学和推荐系统等多个领域,为相关研究提供了坚实的基础。
发展历程
  • COLLAB数据集首次发表于KDD Cup 2017竞赛中,作为图分类任务的数据集,旨在评估图神经网络在社交网络分析中的应用。
    2017年
  • COLLAB数据集被广泛应用于图神经网络的研究中,成为评估模型性能的标准数据集之一。
    2018年
  • COLLAB数据集在多个学术会议和期刊中被引用,进一步推动了图神经网络在社交网络分析领域的研究。
    2019年
  • COLLAB数据集的应用扩展到其他领域,如生物信息学和推荐系统,展示了其跨领域的适用性。
    2020年
  • COLLAB数据集被用于开发新的图神经网络架构,推动了图神经网络技术的进一步发展。
    2021年
常用场景
经典使用场景
在社交网络分析领域,COLLAB数据集被广泛用于研究协作网络的结构与动态。该数据集包含了多个科学合作网络的详细信息,如作者之间的合作关系及其发表的论文。通过分析这些网络,研究者能够揭示合作模式、社区结构以及网络演化规律,为理解科学合作的动力学提供了宝贵的数据支持。
解决学术问题
COLLAB数据集在学术研究中解决了多个关键问题,特别是在网络科学和复杂系统领域。它帮助研究者探索了合作网络中的核心节点识别、社区检测以及网络鲁棒性等重要课题。通过这些研究,学术界能够更好地理解科学合作的机制,优化科研资源的分配,并预测未来的合作趋势,从而推动科学研究的进步。
实际应用
在实际应用中,COLLAB数据集为科研管理、政策制定以及学术推荐系统提供了有力支持。例如,科研机构可以利用该数据集分析合作网络,识别潜在的合作机会,优化科研团队的组建。政策制定者则可以通过分析合作模式,制定更有效的科研资助策略。此外,学术推荐系统可以利用COLLAB数据集中的合作信息,为用户推荐合适的合作者或研究项目。
数据集最近研究
最新研究方向
在社交网络分析领域,COLLAB数据集近期研究聚焦于社交网络中的协作模式及其对信息传播的影响。研究者们通过深度学习模型,如图神经网络(GNN),探索了社交网络中节点间的复杂关系,揭示了协作行为如何加速或阻碍信息的扩散。此外,COLLAB数据集还被用于研究社交网络中的社区检测和影响力最大化问题,为理解社交网络的动态行为提供了新的视角。这些研究不仅深化了对社交网络结构和功能的理解,也为社交网络的优化和管理提供了科学依据。
相关研究论文
  • 1
    COLLAB: A Dataset for Large-Scale Multi-View Social Network EmbeddingUniversity of California, Los Angeles · 2018年
  • 2
    Multi-View Graph Neural Networks for Social Network EmbeddingTsinghua University · 2020年
  • 3
    Deep Multi-View Learning for Social Network EmbeddingStanford University · 2021年
  • 4
    Graph Neural Networks for Social Network AnalysisMassachusetts Institute of Technology · 2022年
  • 5
    Multi-View Learning with Graph Neural NetworksUniversity of Cambridge · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

中国光伏电站空间分布ChinaPV数据集(2015,2020年)

该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。

国家地球系统科学数据中心 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Desert Knowledge Australia Solar Centre PV Power Data

该数据集包含来自澳大利亚Alice Springs的Site 7的太阳能发电数据,包括有功功率(AP,kW)、历史温度(T,℃)、相对湿度(RH,%)、全球水平辐照度(GHI,Wh/m²)和漫射水平辐照度(DHI,Wh/m²)。

github 收录