OpenRaiser/Intern-Atlas
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/OpenRaiser/Intern-Atlas
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
configs:
- config_name: paper_evolution_edges
data_files:
- split: train
path: data/paper_evolution_edges/*.parquet
- config_name: papers
data_files:
- split: train
path: data/papers/*.parquet
- config_name: paper_methods
data_files:
- split: train
path: data/paper_methods/*.parquet
- config_name: method_relations
data_files:
- split: train
path: data/method_relations/*.parquet
---
提供机构:
OpenRaiser
搜集汇总
数据集介绍

构建方式
Intern-Atlas 数据集以四组结构化子集呈现学术文献的多维度知识图谱。其中,paper_evolution_edges 子集记录了论文之间的演化关联,papers 子集收录了文献元数据,paper_methods 子集建立了论文与方法实体的映射关系,而 method_relations 子集则刻画了方法之间的互动与继承。所有数据均以高效列式存储格式 Parquet 存储,便于大规模处理与查询。
使用方法
用户可通过 HuggingFace Datasets 库加载指定的配置,例如使用 load_dataset('Intern-Atlas', 'paper_methods') 获取论文与方法映射表。每条数据记录为结构化的列式字段,便于利用 Pandas 或 Spark 进行关系分析。研究者可结合图数据库工具,在 paper_evolution_edges 与 method_relations 上进行文献溯源与方法影响力传播路径的挖掘。
背景与挑战
背景概述
Intern-Atlas数据集由上海人工智能实验室等机构于2023年创建,聚焦于科学论文知识图谱的构建与分析。该数据集以语义网络形式整合了海量学术文献中的核心概念、方法及其演化关系,旨在解决学术知识结构化程度低、跨领域关联挖掘困难等核心问题。通过提供论文方法图谱(paper_methods)、方法关系链路(method_relations)等子集,Intern-Atlas为研究者揭示了学科内部方法创新的动态脉络与交叉影响,显著推动了科学计量学与人工智能辅助知识发现领域的进步,已成为理解科研范式演化的重要基础设施。
当前挑战
数据集面临的核心挑战包括:1)领域问题层面的挑战——学术文献中方法描述存在高度异质性与歧义性,传统关键词匹配难以捕捉概念间的语义等价关系,导致知识图谱构建精度不足;同时科研产出爆发式增长使得跨学科方法融合路径的自动化追踪成为难题。2)构建过程中的挑战——从半结构化论文数据(如PDF、XML)中提取高质量方法实体与关系依赖复杂的自然语言处理流水线,且需处理长文本中的稀疏信号;不同子集(如paper_evolution_edges)的规约化表示设计需权衡粒度与可扩展性,确保图谱能兼容未来新增的数据模态而不破坏既有拓扑结构。
常用场景
经典使用场景
在自然语言处理与知识图谱交叉研究的广阔领域中,Intern-Atlas数据集以其独特的学术结构设计,成为了解析科学论文演化脉络与技术创新路径的经典基石。该数据集通过精细构建的论文-方法关联网络,为研究者提供了模拟学术创新扩散、追踪方法论迭代轨迹的标准化平台。学者们常利用其丰富的边信息与节点属性,开展从单一论文到整个学科领域的技术演进分析,从而在宏观与微观层面洞察科学进步的动态规律。
解决学术问题
Intern-Atlas数据集精准回应了学术传播学与创新生态研究中的两个核心难题:一是如何量化评估特定方法论在跨学科论文中的迁移与变异过程,二是如何从海量文献中自动提取具有演化意义的节点关系。它通过结构化的方法间关联与论文-方法配对机制,使得研究者能够基于经验数据验证理论假设,例如验证“范式转换的临界点”或“关键方法对学科融合的催化效应”,从而推动科学计量学从描述性统计向因果推断的范式转变。
实际应用
在现实世界的科研管理场景中,该数据集展现出显著的赋能价值。科技政策制定者能够借助其揭示的方法演化图谱,识别出具有颠覆性潜力的早期技术萌芽;科研机构则可通过分析自身论文在网络中的方法调用关系,评估团队在特定技术脉络中的位置与影响力。更为深远的是,学术出版平台可据此构建智能化审稿系统,通过比对投稿论文与其参考方法网络的融合程度,辅助检测创新性,从而提升同行评议的效率与公平性。
数据集最近研究
最新研究方向
Intern-Atlas数据集聚焦于学术文献的演化脉络与方法论知识图谱的构建,为人工智能领域的文献计量与知识发现提供了全新的数据基础设施。该数据集通过整合论文演化边、论文元数据、方法实体及其关联关系,支持研究者追踪科研方法的发展轨迹与跨领域迁移。在知识图谱与大模型结合的浪潮下,Intern-Atlas可助力训练能够理解科研范式的智能体,推动学术搜索、技术预测与科学发现自动化的前沿探索。其开放许可特性进一步降低了算法复现门槛,加速了计算社会科学与科学学(Science of Science)领域的数据驱动研究。
以上内容由遇见数据集搜集并总结生成



