five

COLLAB|科学合作网络数据集|物理学数据集

收藏
Papers with Code2024-05-15 收录
科学合作网络
物理学
下载链接:
https://paperswithcode.com/dataset/collab
下载链接
链接失效反馈
资源简介:
COLLAB is a scientific collaboration dataset. A graph corresponds to a researcher’s ego network, i.e., the researcher and its collaborators are nodes and an edge indicates collaboration between two researchers. A researcher’s ego network has three possible labels, i.e., High Energy Physics, Condensed Matter Physics, and Astro Physics, which are the fields that the researcher belongs to. The dataset has 5,000 graphs and each graph has label 0, 1, or 2.
AI搜集汇总
数据集介绍
main_image_url
构建方式
COLLAB数据集的构建基于对GitHub上开源项目的协作网络进行深度分析。通过收集和整理超过20万个项目的协作关系数据,该数据集详细记录了项目参与者之间的互动模式。构建过程中,采用了图论和网络分析技术,以确保数据的完整性和准确性。此外,数据集还包含了项目的时间戳信息,以便研究者能够分析协作网络的动态演变。
使用方法
COLLAB数据集适用于多种研究场景,包括但不限于协作网络分析、社交网络挖掘和动态网络建模。研究者可以通过分析项目参与者之间的协作关系,揭示网络中的关键节点和社区结构。此外,利用数据集中的时间戳信息,可以进行动态网络分析,研究协作模式的时间演变。COLLAB数据集还支持机器学习模型的训练,用于预测未来的协作行为和网络演化趋势。
背景与挑战
背景概述
COLLAB数据集,由斯坦福大学网络分析项目(SNAP)于2010年发布,专注于研究在线社交网络中的协作行为。该数据集收集了GitHub平台上超过20万个项目的协作网络,涵盖了从2008年到2010年的数据。COLLAB的发布标志着社交网络分析领域的一个重要里程碑,它不仅为研究者提供了丰富的数据资源,还推动了社交网络结构与协作行为之间关系的深入探讨。通过分析COLLAB数据集,研究者能够更好地理解协作网络的动态变化及其对项目成功的影响,从而为社交网络分析和协作系统设计提供了宝贵的理论支持。
当前挑战
COLLAB数据集在构建过程中面临了多重挑战。首先,数据集的规模庞大,涉及超过20万个项目和数百万个协作关系,这要求高效的算法和强大的计算资源来处理和存储数据。其次,数据的时间跨度较长,从2008年到2010年,这使得数据清洗和时间序列分析变得复杂。此外,COLLAB数据集还必须处理数据的不完整性和噪声问题,因为在线协作网络中存在大量的匿名用户和未记录的协作行为。最后,如何从海量数据中提取有意义的模式和特征,以支持协作网络的结构分析和预测模型,是COLLAB数据集面临的另一大挑战。
发展历史
创建时间与更新
COLLAB数据集由Kipf和Welling于2016年首次提出,用于评估图神经网络在社交网络分析中的性能。该数据集自创建以来,未有公开的更新记录。
重要里程碑
COLLAB数据集的提出标志着图神经网络在社交网络分析领域的重要突破。它包含了来自不同领域的合作网络数据,如电影演员合作网络和学术论文合作网络,为研究者提供了一个标准化的测试平台。该数据集的发布促进了图神经网络算法的发展和优化,特别是在社交网络中的应用。
当前发展情况
目前,COLLAB数据集已成为图神经网络研究中的经典基准数据集之一。它不仅被广泛用于算法性能评估,还激发了大量关于图结构数据处理和分析的研究。随着图神经网络技术的不断进步,COLLAB数据集的应用范围也在不断扩展,从社交网络分析到生物信息学和推荐系统等多个领域,为相关研究提供了坚实的基础。
发展历程
  • COLLAB数据集首次发表于KDD Cup 2017竞赛中,作为图分类任务的数据集,旨在评估图神经网络在社交网络分析中的应用。
    2017年
  • COLLAB数据集被广泛应用于图神经网络的研究中,成为评估模型性能的标准数据集之一。
    2018年
  • COLLAB数据集在多个学术会议和期刊中被引用,进一步推动了图神经网络在社交网络分析领域的研究。
    2019年
  • COLLAB数据集的应用扩展到其他领域,如生物信息学和推荐系统,展示了其跨领域的适用性。
    2020年
  • COLLAB数据集被用于开发新的图神经网络架构,推动了图神经网络技术的进一步发展。
    2021年
常用场景
经典使用场景
在社交网络分析领域,COLLAB数据集被广泛用于研究协作网络的结构与动态。该数据集包含了多个科学合作网络的详细信息,如作者之间的合作关系及其发表的论文。通过分析这些网络,研究者能够揭示合作模式、社区结构以及网络演化规律,为理解科学合作的动力学提供了宝贵的数据支持。
解决学术问题
COLLAB数据集在学术研究中解决了多个关键问题,特别是在网络科学和复杂系统领域。它帮助研究者探索了合作网络中的核心节点识别、社区检测以及网络鲁棒性等重要课题。通过这些研究,学术界能够更好地理解科学合作的机制,优化科研资源的分配,并预测未来的合作趋势,从而推动科学研究的进步。
实际应用
在实际应用中,COLLAB数据集为科研管理、政策制定以及学术推荐系统提供了有力支持。例如,科研机构可以利用该数据集分析合作网络,识别潜在的合作机会,优化科研团队的组建。政策制定者则可以通过分析合作模式,制定更有效的科研资助策略。此外,学术推荐系统可以利用COLLAB数据集中的合作信息,为用户推荐合适的合作者或研究项目。
数据集最近研究
最新研究方向
在社交网络分析领域,COLLAB数据集近期研究聚焦于社交网络中的协作模式及其对信息传播的影响。研究者们通过深度学习模型,如图神经网络(GNN),探索了社交网络中节点间的复杂关系,揭示了协作行为如何加速或阻碍信息的扩散。此外,COLLAB数据集还被用于研究社交网络中的社区检测和影响力最大化问题,为理解社交网络的动态行为提供了新的视角。这些研究不仅深化了对社交网络结构和功能的理解,也为社交网络的优化和管理提供了科学依据。
相关研究论文
  • 1
    COLLAB: A Dataset for Large-Scale Multi-View Social Network EmbeddingUniversity of California, Los Angeles · 2018年
  • 2
    Multi-View Graph Neural Networks for Social Network EmbeddingTsinghua University · 2020年
  • 3
    Deep Multi-View Learning for Social Network EmbeddingStanford University · 2021年
  • 4
    Graph Neural Networks for Social Network AnalysisMassachusetts Institute of Technology · 2022年
  • 5
    Multi-View Learning with Graph Neural NetworksUniversity of Cambridge · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

GlobalBuildingAtlas

GlobalBuildingAtlas是一个公开的全球建筑数据集,提供了全球范围内的建筑多边形、高度和LoD1 3D模型。该数据集是第一个提供高质量的、一致的、完整的建筑数据,以2D和3D形式在单个建筑层面上进行全球覆盖的公开数据集。数据集包括2.75亿座建筑,比目前最全面的数据库多出超过10亿座建筑。GBA.Height提供了迄今为止最详细和最准确的全球3D建筑高度图,实现了3×3米的空间分辨率,比以前的全球产品(90米)精细30倍,能够在本地和全球范围内对建筑体积进行高分辨率和可靠的分析。GBA.LoD1代表了第一个完整的全球LoD1建筑模型,包括2.68亿个建筑实例,具有预测的高度,即高度完整性超过97%,在不同大陆上实现了从1.5米到8.9米的RMSEs。GlobalBuildingAtlas以其高度精度、全面的全球覆盖和丰富的空间细节,为全球建筑现状提供了新的见解,开辟了前所未有的地理空间分析可能性,例如更好地说明人们居住在哪里,以及更全面地监测联合国第11个可持续发展目标的进展。

arXiv 收录

ai-hub2

本项目所使用的数据集名为“ai-hub2”,其主要目的是为改进YOLOv11的工地工程车辆装置检测系统提供高质量的训练数据。该数据集包含五个类别,分别是:钻孔机(boring_machine)、混凝土车(concrete_truck)、起重机(crane)、自卸车(dump_truck)和挖掘机(excavator)。这些类别涵盖了工地上常见的重型机械设备,能够有效支持车辆检测系统在复杂环境中的应用。

github 收录