training_data

Hugging Face2025-07-21 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/Vermont-Complex-Systems/training_data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含学术分析相关信息的数据集，其中包括作者的姓名、身份标识、发表年份、作者年龄、所属机构、合作情况等多个字段。数据集被划分为训练集，可用于学术合作关系分析、作者年龄分布研究等。

创建时间：

2025-07-18

原始信息汇总

数据集概述

基本信息

数据集名称: Split_training
数据集来源: Vermont-Complex-Systems
数据集地址: https://huggingface.co/datasets/Vermont-Complex-Systems/training_data
数据集用途: 作为open-academic-analytics数据管道中的中间文件

数据集结构

特征数量: 26
样本数量: 13,857
数据集大小: 5,280,459字节
下载大小: 356,018字节

特征列表

name (string)
aid (string)
pub_year (int32)
older (float64)
same (float64)
younger (float64)
author_age (int64)
institution (string)
existing_collab (float64)
new_collab (float64)
age_category (string)
shared_institutions (string)
counts (float64)
prop_younger (float64)
total_coauth (float64)
nb_papers (int64)
density (float64)
is_prof (int64)
group_size (float64)
perceived_as_male (int64)
host_dept (string)
college (string)
has_research_group (int64)
oa_uid (string)
group_url (string)
first_pub_year (float64)
payroll_name (string)
position (string)
notes (string)

数据分割

分割名称: train
分割样本数: 13,857
分割大小: 5,280,459字节

相关链接

数据管道项目地址: https://github.com/Vermont-Complex-Systems/complex-stories/tree/main/src/lib/stories/open-academic-analytics

搜集汇总

数据集介绍

构建方式

该数据集作为开放学术分析数据管道的重要组成部分，其构建过程体现了多源异构数据的系统整合。通过提取学术合作网络中的多维特征，研究人员将作者信息、机构关联、合作模式等结构化数据与非结构化元数据进行深度融合。构建过程中特别注重时间维度的连续性，以出版年份为轴线整合了作者学术生涯轨迹、合作网络演化等动态特征，并采用量化指标精确刻画跨代际合作模式。

特点

数据集最显著的特征在于其多层次的学术合作网络表征能力。从微观层面捕捉个体学者的年龄、职位、所属机构等属性特征，到中观层面量化合作强度、新老合作比例等网络指标，直至宏观层面反映学科群体的合作密度。特别值得注意的是，数据集创新性地引入了代际合作特征，通过older、same、younger等字段精确刻画学术传承关系，为研究学术代际流动提供了独特视角。数据字段的丰富性使其能够支持从个体行为分析到群体动力学研究的跨尺度分析。

使用方法

使用该数据集时，建议采用网络科学与计量经济学的交叉分析方法。以aid字段作为学者唯一标识符，可构建动态合作网络图谱；结合pub_year与first_pub_year字段能有效追踪学者学术生命周期。对于代际合作研究，prop_younger与age_category字段可建立回归模型分析合作偏好。数据中的institution与shared_institutions字段支持机构层面的空间分析，而density与group_size等网络指标则适用于复杂网络建模。需注意将train分割作为基准训练集，配合原始数据管道的其他组件进行联合分析。

背景与挑战

背景概述

training_data数据集作为开放学术分析数据管道的重要组成部分，由Vermont-Complex-Systems研究团队构建，旨在深入探究学术合作网络中的复杂动态。该数据集聚焦于学者年龄结构、合作模式与机构关联等多维度特征，为理解学术生产力与协作行为提供了丰富的数据支持。其核心研究问题涉及学术合作中年龄差异对研究产出的影响机制，以及机构背景在科研协作中的作用。该数据集的创建为科学计量学和社会网络分析领域提供了新的研究视角，尤其在跨学科合作与科研团队构建方面具有显著的理论价值。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，如何准确量化年龄差异对学术合作的影响存在方法论难题，需解决变量间复杂交互作用的建模问题；在构建过程中，数据整合面临多源异构数据的对齐困难，包括学者身份消歧、机构名称标准化以及跨数据库信息融合等技术挑战。此外，时间跨度带来的学者职业阶段变化追踪，以及敏感属性如性别认知的标注可靠性，均为数据集质量保障的关键难点。

常用场景

经典使用场景

在学术合作网络分析领域，training_data数据集通过整合学者年龄、合作模式、机构背景等多维度特征，为研究学术合作动态提供了丰富的数据支持。该数据集特别适用于分析不同年龄段学者之间的合作偏好，以及机构因素对学术合作的影响。

衍生相关工作

基于该数据集衍生的经典研究包括学术合作网络中的代际差异分析、机构因素对科研合作的影响等。这些研究不仅深化了对学术合作机制的理解，还为后续开发更精细化的学术合作预测模型奠定了基础。

数据集最近研究