five

ResearchGate推荐系统数据集(RGRS)

收藏
arXiv2021-02-18 更新2024-06-21 收录
下载链接:
https://github.com/zroozbahani/RGData
下载链接
链接失效反馈
官方服务:
资源简介:
ResearchGate推荐系统数据集(RGRS)是由伊朗计算机工程与IT大学、工业工程大学和亚兹德大学的研究人员从ResearchGate社交网络中收集的,包含3980名用户几乎完整的信息。数据集创建于2019年1月至4月,旨在为协作推荐系统提供结构化数据。创建过程中,使用了Elmo算法进行文本数据分析,并通过数据清洗和准备操作确保数据质量。该数据集主要应用于科学协作推荐系统,旨在解决科学环境中协作伙伴推荐的问题。

The ResearchGate Recommendation System Dataset (RGRS) was collected from the ResearchGate social network by researchers from three Iranian universities: the University of Computer Engineering and Information Technology, Industrial Engineering University, and Yazd University. It holds nearly complete user profile information for 3980 users. Developed between January and April 2019, the dataset was constructed to provide structured data for collaborative recommendation systems. During the development phase, the Elmo algorithm was adopted for text data analysis, and data cleaning and preparation operations were carried out to ensure data quality. This dataset is primarily applied in scientific collaborative recommendation systems, with the goal of addressing the problem of collaborator recommendation in scientific research contexts.
提供机构:
计算机工程与IT大学,工业工程大学,亚兹德大学
创建时间:
2020-12-30
搜集汇总
数据集介绍
main_image_url
构建方式
在学术社交网络研究领域,构建高质量数据集面临信息维度单一的挑战。RGRS数据集采用系统性构建方法,首先通过Python爬虫以滚雪球方式采集2019年1月至4月期间ResearchGate平台的3980名用户原始数据,涵盖用户画像、社交关系、学术产出等13类结构化表格。预处理阶段运用ELMo深度学习模型对文本特征进行向量化转换,通过余弦相似度计算研究兴趣、技能匹配等语义相似度。最终形成两种数据模型:多层关系网络模型整合六类关联维度,成对用户比较表则构建包含10个预测特征的机器学习样本。
特点
该数据集的核心特征体现在多维信息融合与学术场景适配性。其创新性地整合了结构关系与个人属性双重信息源,既包含关注网络、合著关系等动态交互数据,又涵盖研究领域、学术指标等静态画像特征。数据呈现形式兼具网络拓扑结构与特征矩阵双重表达,支持社区发现、链路预测等多类分析方法。特别值得注意的是,数据集通过ELMo模型实现文本语义的深度表征,使研究兴趣匹配等复杂概念可量化计算。相较于传统学术数据集,其覆盖的问答交互、技能标签等非传统维度为合作者推荐研究提供了更丰富的特征空间。
使用方法
该数据集为合作者推荐系统研究提供了两种典型应用范式。多层网络模型适用于基于网络结构的推荐算法验证,研究者可将其构建为包含合著层、关注层等六个关联维度的异构网络,运用社区检测算法挖掘潜在合作集群。特征表格模型则适用于监督学习方法,以十类特征为输入变量、历史合作为目标变量,可训练分类模型预测合作概率。实际使用中需注意数据的时间窗口特性,建议结合动态网络分析方法处理时序演化。评估阶段可采用精确率、召回率等指标,同时参考原文提供的基准实验结果进行对比分析。
背景与挑战
背景概述
在学术社交网络领域,合作者推荐系统作为专家发现模型的重要分支,长期面临结构化数据匮乏的挑战。为填补这一空白,Zahra Roozbahani等研究人员于2021年推出了ResearchGate推荐系统数据集(RGRS)。该数据集基于2019年1月至4月期间从ResearchGate平台采集的3980名用户原始数据,通过ELMo等先进技术对文本特征进行深度处理,构建了包含多层关系网络和用户对比表的双重模型。RGRS不仅整合了用户的结构化信息(如合作、关注关系)与个人属性(如研究兴趣、技能),更首次实现了多维度数据的协同分析,为学术合作推荐算法的验证与优化提供了关键基础设施,显著推动了跨学科合作发现研究的发展。
当前挑战
RGRS数据集致力于解决学术合作者推荐领域的核心难题,即如何从异构数据中精准识别潜在合作者。其挑战主要体现在两方面:其一,在领域问题层面,需克服学术社交网络中用户关系稀疏性、多模态信息融合复杂性以及动态协作模式建模困难等问题;其二,在构建过程中,面临原始数据采集完整性保障、非结构化文本(如研究摘要)的语义对齐、多关系网络层间一致性维护等关键技术障碍。此外,数据时效性局限与跨平台泛化能力不足,亦对推荐系统的实际应用构成潜在制约。
常用场景
经典使用场景
在学术社交网络研究领域,RGRS数据集为合作者推荐系统的设计与评估提供了经典的应用场景。该数据集通过整合ResearchGate平台上3980名用户的多元信息,构建了包含结构关系与个人特征的多维数据框架。研究者利用其丰富的用户交互记录、学术成果及社交网络属性,能够深入探索学术合作形成的动态机制。数据集特别适用于构建多层网络模型,将关注关系、合著网络、技能相似性等不同维度的关联进行统一分析,从而揭示潜在合作者的匹配模式。
衍生相关工作
围绕RGRS数据集,学术界衍生出一系列经典研究工作,主要集中在多层网络社区检测与混合推荐模型的创新上。部分研究利用该数据集的多关系结构,开发了基于PMM和Louvain等算法的社区发现方法,以识别学术合作中的潜在群体。另有工作聚焦于特征融合技术,将结构信息与文本内容分析相结合,提升了合作者推荐的准确性与可解释性。这些衍生研究不仅验证了数据集的有效性,也推动了学术社交网络分析向更精细、更智能的方向发展。
数据集最近研究
最新研究方向
在学术社交网络领域,ResearchGate推荐系统数据集(RGRS)的推出为合作者推荐研究填补了关键空白。该数据集整合了结构信息(如关注关系、合著网络)与个人内容信息(如研究兴趣、技能),并利用深度学习技术(如Elmo算法)进行文本分析,为多维度建模提供了基础。前沿研究聚焦于多层网络分析,通过结合社区检测与链路预测方法,探索知识传播机制与潜在合作者发现。热点事件包括跨学科合作推荐与个性化学术社交网络的构建,其影响在于提升了推荐系统的准确性与可解释性,推动了学术协作效率与创新网络的演化。
相关研究论文
  • 1
    Presenting a Dataset for Collaborator Recommending Systems in Academic Social Network: a Case Study on ReseachGate计算机工程与IT大学,工业工程大学,亚兹德大学 · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作