arXiv, GitHub
收藏arXiv2025-11-06 更新2025-11-08 收录
下载链接:
https://lead-lag-forecasting.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
本文提出了一种新的预测范式——领先-滞后预测(LLF),旨在预测早期使用渠道(领先)与相关但时间上滞后的结果渠道(滞后)之间的关系。论文中介绍了两个高容量的基准数据集:arXiv(约230万篇论文的访问量和引用量)和GitHub(约300万个代码仓库的推送、星级和分支)。这些数据集为领先-滞后预测提供了理想的测试平台,捕捉了多年来的长期动态,涵盖了整个结果范围,并避免了抽样中的存活偏差。研究机构还记录了数据管理和清理的所有技术细节,并通过统计和分类测试验证了领先-滞后动态的存在,并为回归基准测试了参数和非参数基线。
提供机构:
康奈尔大学计算机科学系和信息系统系
创建时间:
2025-11-06
搜集汇总
数据集介绍

构建方式
在学术交流与开源软件开发领域,arXiv与GitHub数据集通过严谨的数据整合流程构建而成。arXiv数据集融合了arXiv访问日志与Semantic Scholar引文图数据,涵盖230万篇论文的访问与引用轨迹,通过左连接操作确保数据完整性,并对用户访问行为进行聚合以保护隐私。GitHub数据集则整合了GH Archive事件记录与Ecosyste.ms元数据,覆盖300万个代码仓库的推送、星标与分支活动,采用时间序列对齐技术捕捉开发活动的动态演变。两个数据集均采用随机划分策略,分别设置训练集、验证集与测试集,确保模型评估的统计可靠性。
特点
这两个数据集展现出三大核心特征:跨通道预测机制使得早期互动信号能够预测延迟的成果指标,如arXiv中访问量预测引用量、GitHub中推送与星标预测分支数;跨序列泛化能力要求模型在训练阶段学习海量实体的动态模式,并在测试阶段泛化至全新实体;长期动态追踪覆盖五年时间跨度,完整捕捉从早期积累到长期影响的演变过程。数据分布呈现典型的幂律特征,既包含大量低影响力实体,也涵盖少数高影响力突破案例,避免了生存偏差对模型训练的干扰。
使用方法
数据集支持多种机器学习任务范式。在分类任务中,可通过逻辑回归模型识别高影响力实体,如预测论文是否获得超过50次引用或仓库分支数是否超过10次;回归任务则采用线性回归、K近邻、多层感知机与Transformer等基准模型,预测五年期的累计成果数值。评估体系包含曲线下面积与F1分数等分类指标,以及线性空间与对数空间的平均绝对误差等回归指标。使用时需注意输入时间窗口的灵活设置,支持30天、100天与365天等多种观察期到五年预测期的映射关系。
背景与挑战
背景概述
arXiv与GitHub数据集由康奈尔大学研究团队于2025年提出,旨在构建领先-滞后预测(LLF)的标准化基准。该研究聚焦于数字平台中普遍存在的跨通道时序关联现象,即早期用户交互行为(如论文访问量、代码库推送)与滞后高价值成果(如引用量、分支数)间的预测关系。通过整合230万篇arXiv论文的访问-引用轨迹与300万个GitHub仓库的推送-分支数据,该研究首次将LLF确立为独立预测范式,为社会科学与信息生态系统的长期影响力预测提供了实证基础。
当前挑战
该数据集需解决跨通道时序预测的核心挑战:其一,模型需在长达五年的预测跨度中捕捉稀疏滞后信号与早期密集信号间的非线性关联;其二,构建过程面临数据异构性难题,包括GitHub事件流稀疏性处理、arXiv访问日志去匿名化聚合,以及跨平台数据对齐时的时序偏差校正。此外,数据分布呈现典型重尾特征,要求预测方法兼具对罕见高影响力实体的敏感性以及对海量低价值样本的泛化能力。
常用场景
解决学术问题
该数据集有效解决了传统时间序列预测中跨通道泛化能力不足的学术难题。通过构建从早期互动信号到延迟影响指标的映射关系,突破了单一通道预测的局限性。其重要意义在于建立了领先-滞后预测的理论框架,填补了时间序列文献中关于社会平台动态预测的空白,为理解数字生态系统中复杂因果机制提供了新的研究范式,推动了预测方法在异构时间尺度上的创新。
衍生相关工作
基于这些数据集衍生的经典研究主要包括跨序列泛化架构设计和长时域预测算法优化。研究者开发了能够处理数百万实体序列的深度学习模型,解决了传统方法在新实体预测上的局限性。相关工作还拓展了时间序列基础模型在社交数据中的应用,推动了混合专家系统在预测任务中的创新。这些衍生成果显著提升了模型在异构时间尺度和稀疏信号条件下的推理能力。
以上内容由遇见数据集搜集并总结生成



