COLLAB|科学合作网络数据集|物理学数据集

Papers with Code2024-05-15 收录

科学合作网络

物理学

下载链接：

https://paperswithcode.com/dataset/collab

下载链接

链接失效反馈

资源简介：

COLLAB is a scientific collaboration dataset. A graph corresponds to a researcher’s ego network, i.e., the researcher and its collaborators are nodes and an edge indicates collaboration between two researchers. A researcher’s ego network has three possible labels, i.e., High Energy Physics, Condensed Matter Physics, and Astro Physics, which are the fields that the researcher belongs to. The dataset has 5,000 graphs and each graph has label 0, 1, or 2.

AI搜集汇总

数据集介绍

构建方式

COLLAB数据集的构建基于对GitHub上开源项目的协作网络进行深度分析。通过收集和整理超过20万个项目的协作关系数据，该数据集详细记录了项目参与者之间的互动模式。构建过程中，采用了图论和网络分析技术，以确保数据的完整性和准确性。此外，数据集还包含了项目的时间戳信息，以便研究者能够分析协作网络的动态演变。

使用方法

COLLAB数据集适用于多种研究场景，包括但不限于协作网络分析、社交网络挖掘和动态网络建模。研究者可以通过分析项目参与者之间的协作关系，揭示网络中的关键节点和社区结构。此外，利用数据集中的时间戳信息，可以进行动态网络分析，研究协作模式的时间演变。COLLAB数据集还支持机器学习模型的训练，用于预测未来的协作行为和网络演化趋势。

背景与挑战

背景概述

COLLAB数据集，由斯坦福大学网络分析项目（SNAP）于2010年发布，专注于研究在线社交网络中的协作行为。该数据集收集了GitHub平台上超过20万个项目的协作网络，涵盖了从2008年到2010年的数据。COLLAB的发布标志着社交网络分析领域的一个重要里程碑，它不仅为研究者提供了丰富的数据资源，还推动了社交网络结构与协作行为之间关系的深入探讨。通过分析COLLAB数据集，研究者能够更好地理解协作网络的动态变化及其对项目成功的影响，从而为社交网络分析和协作系统设计提供了宝贵的理论支持。

当前挑战

COLLAB数据集在构建过程中面临了多重挑战。首先，数据集的规模庞大，涉及超过20万个项目和数百万个协作关系，这要求高效的算法和强大的计算资源来处理和存储数据。其次，数据的时间跨度较长，从2008年到2010年，这使得数据清洗和时间序列分析变得复杂。此外，COLLAB数据集还必须处理数据的不完整性和噪声问题，因为在线协作网络中存在大量的匿名用户和未记录的协作行为。最后，如何从海量数据中提取有意义的模式和特征，以支持协作网络的结构分析和预测模型，是COLLAB数据集面临的另一大挑战。

发展历史

创建时间与更新

COLLAB数据集由Kipf和Welling于2016年首次提出，用于评估图神经网络在社交网络分析中的性能。该数据集自创建以来，未有公开的更新记录。

重要里程碑

COLLAB数据集的提出标志着图神经网络在社交网络分析领域的重要突破。它包含了来自不同领域的合作网络数据，如电影演员合作网络和学术论文合作网络，为研究者提供了一个标准化的测试平台。该数据集的发布促进了图神经网络算法的发展和优化，特别是在社交网络中的应用。

当前发展情况

目前，COLLAB数据集已成为图神经网络研究中的经典基准数据集之一。它不仅被广泛用于算法性能评估，还激发了大量关于图结构数据处理和分析的研究。随着图神经网络技术的不断进步，COLLAB数据集的应用范围也在不断扩展，从社交网络分析到生物信息学和推荐系统等多个领域，为相关研究提供了坚实的基础。

发展历程

COLLAB数据集首次发表于KDD Cup 2017竞赛中，作为图分类任务的数据集，旨在评估图神经网络在社交网络分析中的应用。
2017年
COLLAB数据集被广泛应用于图神经网络的研究中，成为评估模型性能的标准数据集之一。
2018年
COLLAB数据集在多个学术会议和期刊中被引用，进一步推动了图神经网络在社交网络分析领域的研究。
2019年
COLLAB数据集的应用扩展到其他领域，如生物信息学和推荐系统，展示了其跨领域的适用性。
2020年
COLLAB数据集被用于开发新的图神经网络架构，推动了图神经网络技术的进一步发展。
2021年

常用场景

经典使用场景

在社交网络分析领域，COLLAB数据集被广泛用于研究协作网络的结构与动态。该数据集包含了多个科学合作网络的详细信息，如作者之间的合作关系及其发表的论文。通过分析这些网络，研究者能够揭示合作模式、社区结构以及网络演化规律，为理解科学合作的动力学提供了宝贵的数据支持。

解决学术问题

COLLAB数据集在学术研究中解决了多个关键问题，特别是在网络科学和复杂系统领域。它帮助研究者探索了合作网络中的核心节点识别、社区检测以及网络鲁棒性等重要课题。通过这些研究，学术界能够更好地理解科学合作的机制，优化科研资源的分配，并预测未来的合作趋势，从而推动科学研究的进步。

实际应用

在实际应用中，COLLAB数据集为科研管理、政策制定以及学术推荐系统提供了有力支持。例如，科研机构可以利用该数据集分析合作网络，识别潜在的合作机会，优化科研团队的组建。政策制定者则可以通过分析合作模式，制定更有效的科研资助策略。此外，学术推荐系统可以利用COLLAB数据集中的合作信息，为用户推荐合适的合作者或研究项目。

数据集最近研究

相关研究论文

1
COLLAB: A Dataset for Large-Scale Multi-View Social Network EmbeddingUniversity of California, Los Angeles · 2018年
2
Multi-View Graph Neural Networks for Social Network EmbeddingTsinghua University · 2020年
3
Deep Multi-View Learning for Social Network EmbeddingStanford University · 2021年
4
Graph Neural Networks for Social Network AnalysisMassachusetts Institute of Technology · 2022年
5
Multi-View Learning with Graph Neural NetworksUniversity of Cambridge · 2023年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息，生成每次日食的覆盖区、中心区范围数据，展示日食带的地图；并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9

该数据集包含了用户和助手之间的对话，具有用户和助手发言的文本特征，以及一个索引级别特征。数据集分为训练集，共有52001条对话记录。

huggingface 收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

TongueDx Dataset

TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集，由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像，涵盖了多种环境条件下的舌象，图像通过智能手机和笔记本电脑摄像头采集，具有较高的多样性和代表性。数据集不仅包含舌象图像，还提供了详细的舌面属性标注，如舌色、舌苔厚度等，并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注，旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断，旨在通过自动化技术提高舌诊的准确性和可靠性。

arXiv 收录