Large-scale Multi-layer Academic Networks (LMANStat)
收藏github2023-12-11 更新2024-05-31 收录
下载链接:
https://github.com/Gaotianchen97/LMANStat
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个Excel文件,分别存储作者和论文信息(包括作者唯一ID、论文唯一ID及其相关属性),以及八个CSV文件,描绘了边列表。数据集详细记录了学术论文和作者的基本信息,并通过不同的CSV文件展示了学术网络的结构和动态。
This dataset comprises two Excel files, which store information about authors and papers (including unique author IDs, unique paper IDs, and their associated attributes), along with eight CSV files that depict edge lists. The dataset meticulously documents the fundamental details of academic papers and authors, and through various CSV files, it illustrates the structure and dynamics of the academic network.
创建时间:
2023-07-14
原始信息汇总
数据集概述
数据集名称
Large-scale Multi-layer Academic Networks (LMANStat)
数据集内容
文件组成
- Paper_information.xlsx:包含学术论文的基本信息,每行代表一篇独特的学术论文,由Paper_unique_id唯一标识。
- Author_information.xlsx:包含每位独特作者的属性,包括姓名、机构、地区和研究兴趣,由Author_unique_id唯一标识。
- Edgelist_X.csv(共八个文件):对应七个网络的边列表。每行中的**(Target and Source)**字段代表相应网络中的一个边,Year字段指示边形成的时间。
- 节点类型:
- Edgelist_citation.csv, Edgelist_co_citation.csv, Edgelist_collaboration.csv, Edgelist_author_citation.csv, Edgelist_author_paper.csv:Paper_unique_id 或 Author_unique_id
- Edgelist_journal_citation.csv, Edgelist_co_institution.csv, Edgelist_keyword_co_occurrence.csv:期刊名、机构名、关键词
- 节点类型:
- Edgelist_co_institution_network.xlsx:由于Edgelist_co_institution_network.csv文件大小超过100MB,额外提供此文件以方便下载和使用。
引用信息
若使用本数据集,请引用以下文献: Gao, T., Zhang, Y., Pan, R., & Wang, H. (2023). Large-scale Multi-layer Academic Networks Derived from Statistical Publications. arXiv preprint arXiv:2308.11287.
搜集汇总
数据集介绍

构建方式
Large-scale Multi-layer Academic Networks (LMANStat) 数据集的构建基于统计学术出版物,通过提取作者与论文的关联信息,构建了一个多层次的学术网络。数据集包含两个Excel文件,分别记录了论文和作者的基本信息,并通过八个CSV文件描述了不同网络的边列表。这些边列表涵盖了引用、共引、合作、作者引用、作者论文、期刊引用、机构合作以及关键词共现等多种网络关系。通过时间字段的筛选,用户可以动态构建学术网络,从而深入分析学术合作与知识传播的模式。
特点
LMANStat 数据集的特点在于其多层次网络结构,涵盖了从作者、论文到期刊、机构和关键词的广泛学术关系。数据集不仅提供了作者与论文的唯一标识符,还包含了丰富的属性信息,如作者的研究兴趣、所属机构及地区等。此外,数据集通过多个边列表文件,详细记录了不同网络关系的形成时间,使得用户能够动态分析学术网络的演化过程。这种多层次、多维度的数据结构为研究学术合作、知识传播及学科交叉提供了丰富的数据支持。
使用方法
LMANStat 数据集的使用方法灵活多样,用户可以通过R或Python代码进行网络构建、描述性分析和可视化。R代码基于4.1.1版本,使用1.2.6版本的“igraph”包;Python代码基于3.7版本,使用2.6.3版本的“networkx”包。用户可以根据研究需求,选择不同的边列表文件进行网络构建,并通过时间字段筛选动态分析网络演化。此外,数据集还提供了详细的论文和作者信息,便于用户进行更深层次的属性分析。使用该数据集时,请务必引用相关论文以尊重数据来源。
背景与挑战
背景概述
Large-scale Multi-layer Academic Networks (LMANStat) 数据集由Gao、Zhang、Pan和Wang等研究人员于2023年创建,旨在通过统计出版物构建大规模的多层学术网络。该数据集包含作者与论文的基本信息以及多种类型的网络边列表,涵盖了引用、合作、机构关联等多维度学术关系。LMANStat的构建为学术界提供了丰富的多层级网络数据,支持动态网络分析、学术影响力评估以及跨学科合作研究等领域的深入探索。该数据集不仅推动了复杂网络分析技术的发展,还为学术生态系统的研究提供了重要的数据基础。
当前挑战
LMANStat数据集在构建过程中面临多重挑战。首先,数据来源的多样性与复杂性使得数据清洗与整合成为一项艰巨任务,尤其是如何准确匹配作者、论文及其相关属性。其次,多层网络的构建需要处理不同类型节点(如作者、论文、期刊、机构等)之间的复杂关系,这对网络建模与存储提出了较高要求。此外,动态网络的构建依赖于时间维度的精确标注,如何有效处理时间序列数据并确保网络的时序一致性也是一个关键挑战。最后,数据集的规模庞大,尤其是某些边列表文件超过100MB,这对数据的存储、传输与计算效率提出了更高的要求。
常用场景
经典使用场景
Large-scale Multi-layer Academic Networks (LMANStat) 数据集广泛应用于学术网络分析领域,特别是在研究学术合作、引用关系以及关键词共现等方面。通过该数据集,研究者可以构建多层次的学术网络,分析作者、论文、期刊、机构以及关键词之间的复杂关系。这种多层次网络结构为理解学术界的动态演变提供了有力工具,尤其适用于大规模学术数据的挖掘与分析。
解决学术问题
LMANStat 数据集解决了学术研究中关于学术网络动态演化的关键问题。通过提供详细的作者、论文、期刊和机构信息,以及多种类型的网络边列表,该数据集支持研究者深入分析学术合作的模式、引用网络的演化路径以及关键词共现的趋势。这些分析不仅有助于揭示学术界的知识传播机制,还为学术影响力评估和科研政策制定提供了数据支持。
衍生相关工作
基于 LMANStat 数据集,研究者们已经开展了多项经典工作。例如,一些研究利用该数据集构建了动态学术合作网络,揭示了科研合作的时空演化规律;另一些研究则通过分析引用网络,提出了新的学术影响力评估指标。此外,该数据集还支持了多篇关于学术关键词共现网络的研究,为学科交叉与融合提供了新的视角。这些衍生工作不仅丰富了学术网络分析的理论框架,还推动了相关领域的实际应用发展。
以上内容由遇见数据集搜集并总结生成



