Astro-ph Knowledge Graph Dataset
收藏github2025-11-16 更新2025-11-19 收录
下载链接:
https://github.com/tingyuansen/astro-ph_knowledge_graph
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自arXiv的天体物理学论文的知识图谱表示,涵盖1992年至2025年7月的408,590篇论文。每篇论文提取约10个关键概念,聚类为9,999个独特概念类,包含详细描述和语义嵌入。引用网络包括21.3M引用关系和16.8M被引用关系,连接数据集内外的论文。数据集还包含传统ADS关键词(73%覆盖率)用于比较。
This dataset contains knowledge graph representations of astrophysics papers sourced from arXiv, covering 408,590 papers published between 1992 and July 2025. For each paper, approximately 10 key concepts are extracted and clustered into 9,999 unique concept classes, accompanied by detailed descriptions and semantic embeddings. The citation network comprises 21.3 million citing relationships and 16.8 million cited relationships, connecting papers both within and outside the dataset. The dataset also includes traditional ADS keywords with a 73% coverage rate for comparative analysis.
创建时间:
2025-11-16
原始信息汇总
Astro-ph 知识图谱数据集概述
数据集基本信息
- 数据来源:arXiv天体物理学论文(astro-ph)
- 时间范围:1992年至2025年7月
- 论文数量:408,590篇
- 数据格式:CSV、JSONL、NPY、NPZ(均使用gzip压缩)
核心数据文件
索引文件
-
papers_index_mapping.csv.gz
- 主映射文件,连接arXiv ID与整数索引
- 列:paper_idx(0-408,589)、arxiv_id
-
papers_years.npy
- 每篇论文的出版年份
- NumPy数组格式,形状(408590,)
-
arxiv_to_bibcode_mapping.csv.gz
- arXiv ID与NASA ADS文献编号的映射
- 列:paper_idx、arxiv_id、primary_bibcode、all_bibcodes
概念相关文件
-
concepts_vocabulary.csv.gz
- 9,999个唯一概念的词汇表
- 列:label、class、concept、description
-
papers_concepts_mapping.csv.gz
- 论文与概念的映射关系
- 每篇论文约10个概念
- 列:arxiv_id、label
-
concepts_embeddings.npz
- 概念语义嵌入向量
- 使用OpenAI text-embedding-3-large模型生成
- 形状:(9,999, 3,072)
引用网络文件
-
citations_indexed.jsonl.gz
- 完整的引用网络数据
- 包含21.3M引用关系和16.8M被引用关系
- 使用整数索引提高效率
-
identifier_mapping_all.csv.gz
- 完整标识符映射
- 列:identifier_idx、identifier、type
-
identifier_mapping_arxiv.csv.gz
- 仅包含arXiv论文的标识符映射
-
identifier_mapping_external.csv.gz
- 仅包含外部文献编号的标识符映射
摘要与关键词
-
abstracts_all.jsonl.gz
- 所有论文的原始摘要
- 覆盖率:100%
- 字段:arxiv_id、abstract
-
ads_keywords_curated.csv.gz
- 经处理的ADS关键词
- 覆盖率:73%的论文
- 唯一关键词:6,909个
数据特征
概念系统
- 概念数量:9,999个唯一概念类
- 层次组织:8个研究领域(宇宙学、星系物理、高能天体物理等)
- 覆盖率:100%论文都有概念标注
- 分布特征:相比传统ADS关键词,概念分布更均衡
引用网络
- 内部网络:59.4%的引用和80.6%的被引用来自数据集内部
- 关系数量:21.3M引用关系、16.8M被引用关系
- 索引系统:0-408,589为arXiv论文,408,590+为外部文献
时间覆盖
- 跨度:1992-2025年
- 增长趋势:反映天体物理学研究和arXiv采用率的稳步增长
数据获取与使用
- 存储方式:使用Git LFS管理大文件
- 读取支持:gzipped CSV文件可直接被pandas读取
- 索引一致性:所有文件使用统一的paper_idx索引系统
技术说明
- 概念提取:使用GPT-4o和o1模型
- 嵌入生成:OpenAI text-embedding-3-large模型
- 引用数据来源:NASA ADS API
- 数据验证:确保100%覆盖率和索引一致性
最后更新:2025年1月
搜集汇总
数据集介绍

构建方式
在构建Astro-ph知识图谱数据集的过程中,研究团队采用多阶段流程精心整合了天体物理学领域的学术资源。首先从arXiv平台收集了1992年至2025年间的408,590篇天体物理学论文,随后运用GPT-4o等先进语言模型从每篇论文中提取约十个核心概念,并通过聚类分析形成9,999个具有详细描述的概念类别。通过NASA ADS API构建的引用网络包含2,130万条参考文献关系和1,680万条引用关系,采用统一整数索引系统实现了高效图运算。
特点
该数据集最显著的特征体现在概念提取的系统性与覆盖范围的完整性。相较于传统ADS关键词仅73%的覆盖率,本数据集通过智能提取实现了100%的概念覆盖,且9,999个概念类别呈现出更均衡的频率分布。概念体系被科学划分为宇宙学、星系物理等八个层级领域,配合3,072维语义嵌入向量,为多粒度知识发现提供了坚实基础。引用网络采用整数索引优化存储结构,内部引用关系占比达59.4%,确保了数据分析的高效性。
使用方法
研究者可通过Git LFS获取完整数据集后,利用Python生态进行多维度分析。核心索引文件支持快速定位论文与概念映射,概念嵌入文件便于语义相似度计算,而JSON Lines格式的引用网络文件则适合构建知识图谱。典型应用流程包括:通过papers_index_mapping建立基准索引,结合concepts_vocabulary开展概念分析,运用citations_indexed构建引用网络,最终实现跨模态的知识发现与趋势预测。
背景与挑战
背景概述
天体物理学知识图谱数据集由俄亥俄州立大学研究团队于2025年创建,旨在构建覆盖arXiv平台1992年至2025年间40.8万篇天体物理学论文的结构化知识网络。该数据集通过大语言模型提取每篇论文约10个核心概念,形成9999个具有语义描述和嵌入向量的概念类别,并整合了2130万条参考文献与1680万条引证关系。其创新性体现在将传统文献计量学与人工智能技术深度融合,为天体物理学领域的知识发现、跨学科关联分析及科研趋势预测提供了前所未有的数据基础。
当前挑战
在解决天体物理学文献智能分析问题时,需克服传统关键词体系存在的两极分化现象——部分术语过于宽泛而另一些过度特异,这限制了概念关联的精确度。数据集构建过程中面临多重挑战:首先需要从非结构化的论文全文中稳定提取标准化概念,并保持跨三十余年文献的语义一致性;其次在构建引证网络时,需处理异构数据源中标识符的匹配问题,确保arXiv标识与ADS文献编码的准确映射;最后还需平衡大规模语言模型生成内容与学术版权规范的冲突,导致结构化摘要数据无法公开共享。
常用场景
经典使用场景
在天体物理学知识图谱研究中,该数据集为文献挖掘与语义分析提供了结构化基础。通过系统提取的9999个概念类别与2160万条引用关系,研究者能够构建多维度的学术网络,用于分析学科演进脉络与知识传播路径。典型应用包括基于概念共现的跨领域关联发现,以及利用时序引用网络追踪理论范式变迁,为天体物理学的宏观认知图景提供数据支撑。
衍生相关工作
基于该数据集衍生的经典研究包括概念演化轨迹可视化系统、跨模态学术检索框架等创新工作。研究者利用其层次化概念体系构建了动态学科地图,通过耦合引用网络与语义嵌入开发了新型学术影响力评估模型。这些成果不仅深化了对天体物理学知识体系的理解,也为其他学科构建专用知识图谱提供了方法论借鉴。
数据集最近研究
最新研究方向
在天体物理学知识图谱领域,该数据集凭借其覆盖1992至2025年间的40余万篇文献及2130万条引用关系,正推动学科研究范式的革新。前沿探索聚焦于多模态语义网络的构建,通过融合概念嵌入与引文拓扑结构,揭示学科知识演化路径与跨领域关联模式。当前研究热点集中于结合大语言模型与图神经网络技术,实现动态知识推理与科研趋势预测,为天体物理领域的智能文献检索和交叉学科发现提供全新方法论支撑。
以上内容由遇见数据集搜集并总结生成



