Bibliographic-dataset
收藏github2019-04-16 更新2024-05-31 收录
下载链接:
https://github.com/AntoniaGogoglou/Bibliographic-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一组科学家的完整引用和合作图,以及他们的引用者和合作者的完整信息。这形成了围绕初始样本作者的完整图(出版物、引用和合作),允许跨多层图进行文献分析。
This dataset comprises a comprehensive collection of citations and collaboration graphs of scientists, along with complete information about their citing authors and collaborators. It forms a complete graph (publications, citations, and collaborations) centered around the initial sample authors, enabling cross-layer graph analysis of the literature.
创建时间:
2017-10-04
原始信息汇总
数据集概述
数据集名称
Bibliographic-dataset
数据集内容
该数据集包含一组科学家的完整引用和合作图,以及他们的引用者和合作者的完整信息。这包括围绕初始样本作者的完整图(出版物、引用和合作),适用于跨多层图的文献分析。
文件1: fromHeidiCoA.txt.tar.bz2
- 内容: 包含10个核心科学家的合作网络的.txt文件。
- 列信息:
- msauthor_id: 核心科学家的唯一标识符。
- r_msauthor_id: 科学家多重名称变体的合并ID。
- title: 核心科学家的出版物标题。
- doi: 核心科学家的出版物DOI。
- n_authors: 核心科学家的出版物作者数量。
- pub_type: 出版物类型(会议/期刊)。
- year_e: 出版年份。
- msjournal_id: 期刊ID(如果是会议则为0)。
- CoAuthorIDs: 与核心科学家共同作者的科学家ID。
- CoAuthorIDsMerged: 共同作者多重名称变体的合并ID。
- CoAuthorsPublications: 共同作者的出版物ID。
- CitingPubsOfCoAuthorsPubs: 引用共同作者出版物的出版物ID。
文件2: 五个压缩文件(compressed.gzaa, compressed.gzab, compressed.gzac, compressed.gzad, compressed.gzae)
- 内容: 包含引用和合作信息的.txt文件。
- 列信息:
- authorID: 核心科学家的唯一标识符。
- r_authorID: 科学家多重名称变体的合并ID。
- pubID: 核心科学家的出版物ID。
- pubTitle: 核心科学家的出版物标题。
- pubDOI: 核心科学家的出版物DOI。
- pubNumOfAuthors: 核心科学家的出版物作者数量。
- pubType: 出版物类型(会议/期刊)。
- pubYear: 出版年份。
- pubJourID: 期刊ID(如果是会议则为0)。
- citingPub: 引用核心科学家出版物的出版物ID。
- authorID_citingPub: 引用出版物的作者ID。
- authorFirstName_citingPub: 引用作者的名字。
- authorLastName_citingPub: 引用作者的姓氏。
- pubID_citingPubAuthor: 引用作者的其他出版物ID。
- pubTitle_citingPubAuthor: 引用作者的其他出版物标题。
获取方式
数据集的完整版本可通过联系 agogoglou@csd.auth.gr 获取。
搜集汇总
数据集介绍

构建方式
Bibliographic-dataset数据集的构建方法是通过对科学家们的完整引文及合作网络进行采集,具体来源于MAS数据库。该数据集不仅包含了初始样本作者周围的完整图(出版、引文及合作),还包含了他们的引证者和合作者的全部信息,为跨多层图的文献计量分析提供了可能。
特点
该数据集的特点在于其包含了核心科学家的合作网络,以及相关的引文和合作信息。数据集以图的形式存储,其中包括出版、引文和合作三个层次的信息。此外,数据集还提供了合并ID以处理作者姓名变体的情况,确保数据的准确性和完整性。
使用方法
使用Bibliographic-dataset数据集时,首先需要解压相应的文件。对于第一个文件,可以直接使用文本编辑器查看。对于第二个文件,需要通过特定的命令解压合并后,再使用文本编辑器或数据处理工具进行进一步的分析和处理。
背景与挑战
背景概述
Bibliographic-dataset数据集的构建旨在推动科学文献领域的多层面 bibliographic 分析。该数据集由M.S. Agogoglou等研究人员创建于21世纪初,以MAS数据库和科学家合作网络为基础,提供了10位核心科学家的完整引文和合作图。该数据集通过捕获初始样本作者周围的完整图(出版、引文和合作),为科学计量学研究和学术网络分析提供了宝贵的资源,对相关学术领域产生了显著影响。
当前挑战
Bibliographic-dataset在构建过程中遇到了多个挑战。首先,数据集的构建需要处理科学家姓名变体的问题,以避免统计偏差。其次,整合不同来源的学术信息,如合作网络、引文关系等,需要解决数据一致性和融合的问题。此外,该数据集在解决科学文献领域的领域问题时,还需面对如何有效提取和分析多层面图结构信息的挑战。
常用场景
经典使用场景
在学术研究领域,Bibliographic-dataset数据集的典型应用场景在于构建科学家的合作网络以及他们的论文引用关系图。该数据集提供了核心科学家的完整引用和合作网络信息,使得研究人员能够对多层次的学术社交网络进行深入分析,从而揭示学术界的合作模式及知识传播路径。
解决学术问题
该数据集解决了学术研究中如何量化科学家之间的合作关系以及论文引用关系的问题。它提供了丰富的信息,如作者唯一标识符、合并ID、论文标题、DOI、作者数量、出版类型、出版年份等,有助于分析学术合作网络的结构特征,对于理解学术领域的发展趋势和知识结构具有重要意义。
衍生相关工作
基于Bibliographic-dataset数据集,研究者们已经衍生出一系列相关工作,如学术网络分析、科研合作模式探索以及科学知识传播研究等。这些工作不仅拓展了我们对学术社交网络的理解,也为科学计量学领域提供了新的研究方法和视角。
以上内容由遇见数据集搜集并总结生成



