Organisational Twitter Accounts Dataset
收藏arXiv2026-03-17 更新2026-03-19 收录
下载链接:
https://doi.org/10.1177/01655515261421164
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由莱顿大学科技研究中心主导构建,聚焦于研究及政策相关组织在Twitter上的学术交流活动。数据集包含9842个经过验证的组织账号,覆盖150,586,368条学术推文,数据来源整合了GRID、ROR和Overton的组织元数据以及Altmetric和Crossref Event Data的推文记录。通过名称匹配和人工验证流程,确保账号与组织的精确对应。该数据集旨在分析组织在社交媒体学术传播中的角色,为科学计量学、替代计量学和科学传播研究提供基础支持,尤其关注组织在提升科学成果可见性及公众参与方面的作用。
This dataset was primarily constructed by the Centre for Science and Technology Studies (CWTS) at Leiden University, focusing on academic communication activities of research and policy-related organizations on Twitter. The dataset contains 9,842 verified organizational accounts, covering 150,586,368 academic tweets. Its data sources integrate organizational metadata from GRID, ROR, and Overton, as well as tweet records from Altmetric and Crossref Event Data. Precise correspondence between accounts and affiliated organizations is ensured through name matching and manual verification procedures. This dataset aims to analyze the role of organizations in academic dissemination via social media, providing foundational support for research in scientometrics, altmetrics, and science communication, with a particular focus on the role of organizations in enhancing the visibility of scientific outputs and fostering public engagement.
提供机构:
波斯湾大学·人文学院·信息科学系; 中国人民大学·信息资源管理学院; 莱顿大学·科技研究中心; 谢菲尔德大学·信息、新闻与传播学院
创建时间:
2026-03-17
搜集汇总
数据集介绍

构建方式
在社交媒体计量学领域,精准识别参与学术交流的用户群体是深化理解在线学术传播动态的关键。本数据集的构建采用了系统化的多源数据整合策略,首先从GRID、ROR和Overton三个全球性组织机构数据库中提取了超过11万个研究及政策相关机构的元数据,形成基础机构名录。随后,通过匹配Altmetric和Crossref Event Data两大替代计量学数据库收录的、涉及学术文献的推文数据,识别出发布过学术推文的Twitter账户。最终,通过机构全称、别名与Twitter账户信息的比对,并结合人工验证,成功筛选出9,842个确认为组织机构运营的Twitter账户,从而构建了这一专门的数据集。
特点
该数据集的核心特征在于其聚焦于组织机构这一特定的学术传播主体,填补了该领域专用数据资源的空白。数据集不仅提供了账户列表,更包含了丰富的多维指标,涵盖社交媒体资本(如关注者数量)、推文活动(如年度学术推文量、原创率、学术聚焦率)以及互动水平(如平均点赞、转推、引用和回复数)。尤为重要的是,数据集中的组织机构被细致划分为非营利组织、公司、教育机构、医疗机构、研究设施、政府及档案馆七大类别,并提供了与全部学术推文用户对比的百分位排名,使得跨类别比较和相对绩效分析成为可能,为深入研究组织机构的在线学术传播行为提供了结构化、可操作的数据基础。
使用方法
该开放数据集为科学计量学、替代计量学及科学传播研究提供了重要的实证基础。研究者可利用该数据集分析不同类型组织机构在Twitter平台上的学术参与模式、传播策略及其影响力差异。具体应用包括:基于提供的百分位排名和原始指标,比较各类组织机构在社交媒体资本、活动强度及互动效能上的相对优势;探究组织机构推文在获得可见性(点赞、转推)与激发对话性互动(引用、回复)方面的不同表现;此外,数据集所附的机构分类与元数据支持更细粒度的分析,例如评估政府机构或研究设施在引导公众讨论方面的独特作用。数据集也可作为基准,用于监测组织机构学术传播行为的长期演变,或整合至更广泛的科研评价与社会影响力分析框架之中。
背景与挑战
背景概述
社交媒体在非正式学术交流与促进公众科学参与中的作用日益凸显,催生了以测量学术实体在线活动为核心的社会媒体计量学。为深入理解学术内容在社交媒体上的传播机制与影响力,识别并分类参与其中的用户类型成为关键研究议题。在此背景下,由波斯湾大学、中国人民大学、莱顿大学科学与技术研究中心及谢菲尔德大学的研究人员组成的团队,于2026年创建了‘组织性推特账户数据集’。该数据集旨在系统识别并分析在推特平台上参与学术传播的研究与政策相关组织账户,以填补该领域缺乏专门数据集的空白。研究通过整合GRID、ROR、Overton三个全球组织数据库与Altmetric、Crossref Event Data两个替代计量数据源,成功识别了9,842个曾发布学术推文的组织账户,并对其社交媒体资本、推文活动及互动水平进行了多维度分析。该数据集的构建为探究组织机构如何在线塑造学术话语、理解其在科学传播中的角色提供了重要的实证基础,推动了替代计量学与科学传播研究的纵深发展。
当前挑战
该数据集致力于解决替代计量学领域内,对学术社交媒体传播中机构参与者行为模式缺乏系统性认识的挑战。具体而言,其核心挑战在于如何从海量、异质的社交媒体用户中,精准识别出代表研究机构、政策组织等实体的账户,并量化分析其相较于个人用户的传播特征与影响力差异。在构建过程中,研究团队面临多重技术性与方法学挑战。首要挑战源于数据源的异构性与匹配复杂性,需将来自不同规范体系(GRID、ROR、Overton)的组织名录与来自不同聚合商(Altmetric、Crossref Event Data)的推特数据关联,并处理名称不一致、元数据缺失等问题。其次,账户验证过程依赖大量人工核查,以确保匹配的准确性,这在大规模数据处理中效率较低且可能引入主观偏差。此外,数据覆盖存在局限,仅能捕捉明确关联学术出版物(如含DOI)的推文,可能遗漏组织以更隐晦方式讨论研究的内容;同时,依赖特定组织注册数据库也意味着可能未涵盖所有相关组织类型。这些挑战共同指向了在动态变化的社交媒体生态中,进行大规模、精准机构用户识别的固有难度。
常用场景
经典使用场景
在科学计量学与替代计量学领域,组织机构的社交媒体行为日益成为理解学术传播生态的关键维度。该数据集通过整合全球组织数据库与替代计量数据源,系统识别了在Twitter平台上参与学术出版物讨论的九千余个组织账号,为量化分析机构在社交媒体上的学术参与模式提供了标准化数据基础。其经典应用场景在于支撑大规模实证研究,以揭示不同类别组织在学术推文发布频率、内容原创性及受众互动等方面的行为差异,从而描绘出机构参与在线学术传播的宏观图景。
解决学术问题
该数据集有效回应了替代计量学研究中的一个关键挑战:社交媒体用户异质性带来的数据解读困境。通过构建专门的组织账号数据集,研究得以将机构行为从混杂的用户群体中剥离,系统考察其相较于个体用户的相对表现。这解决了以往研究因缺乏针对性数据而难以精确评估机构角色的问题,为深入理解机构如何作为制度性行动者塑造在线学术话语提供了实证基础,推动了从关注个体到纳入机构维度的分析视角转变。
衍生相关工作
该数据集及其构建方法为后续研究开辟了新的路径。其衍生的经典工作可能包括:对不同平台(如Bluesky、Mastodon)上组织行为的比较研究;对组织推文内容与修辞策略的质性分析,以探究高互动性背后的驱动因素;以及将组织参与度指标整合进更广泛的研究评估模型。该数据集亦可作为基准,用于开发自动化识别与分类组织账号的算法,或用于研究科学、政策与公众参与之间的中介机制。
以上内容由遇见数据集搜集并总结生成



