five

RoboPaper Atlas

收藏
github2026-04-18 更新2026-04-19 收录
下载链接:
https://github.com/gisbi-kim/robopaper-atlas
下载链接
链接失效反馈
官方服务:
资源简介:
RoboPaper Atlas是一个包含40年机器人学论文(ICRA、IROS、RA-L、T-RO、RSS、IJRR)的数据集,共有73,000+条目。数据集提供了标题、作者、摘要、引用次数和关键词等信息,并经过去重处理。用户可以通过交互式网页或Excel文件进行探索、排序和过滤。

RoboPaper Atlas is a dataset containing 40 years of robotics papers published in ICRA, IROS, RA-L, T-RO, RSS, and IJRR, with over 73,000 entries. The dataset provides metadata including titles, authors, abstracts, citation counts and keywords, and has been deduplicated. Users can explore, sort and filter the dataset via an interactive web interface or Excel files.
创建时间:
2026-04-18
原始信息汇总

RoboPaper Atlas 数据集概述

数据集简介

RoboPaper Atlas 是一个汇集了超过40年机器人学领域主要会议与期刊论文的交互式数据集。它整合了来自 DBLP 和 OpenAlex 的数据,包含超过73,000篇论文的标题、作者、摘要、引用次数和关键词等信息,并提供了可直接进行探索、排序、筛选的网页界面和Excel文件。

数据收集范围与规模

  • 数据来源:DBLP 和 OpenAlex。
  • 覆盖时间:1982年至2025年。
  • 覆盖会议/期刊
    • ICRA (1984年起,约30,600篇)
    • IROS (1988年起,约26,600篇)
    • RA-L (2016年起,约9,400篇)
    • T-RO (2004年起,约3,350篇)
    • IJRR (1982年起,约2,650篇)
    • RSS (2005年起,约1,320篇)
  • 数据总量:去重后总计约73,900篇论文。
  • 数据合并规则:基于DOI和(规范化标题,年份)合并期刊与会议的交叉发表记录(例如,RA-L论文在ICRA上发表的,合并为1条记录)。

核心功能与访问方式

  • 在线交互式探索器:提供对全部73,000+篇论文的探索功能,支持复合筛选、点击排序、分页、可视化图表(堆叠条形图、散点图)、作者科学计量指标(h-index、i10-index、引用次数直方图)以及基于摘要的词云生成。
    • 访问地址:https://gisbi-kim.github.io/robopaper-atlas/icra_iros_ral_tro_rss_ijrr_explorer.html
  • 年度论文统计:展示各会议/期刊每年论文数量的趋势图,支持堆叠、分组、折线三种视图切换。
    • 访问地址:https://gisbi-kim.github.io/robopaper-atlas/icra_iros_ral_tro_rss_ijrr_by_year.html
  • 数据下载
    • 主数据集:XLSX格式文件 (icra_iros_ral_tro_rss_ijrr_all.xlsx,约40 MB),包含5个工作表:summaryby_year_pivotby_year_detailtop_cited_100papers
    • 词汇表:从论文摘要中提取的词汇列表。
      • CSV格式 (word_book.csv,0.3 MB):包含wordtotal_countnum_papers列。
      • JSON格式 (word_book.json,18 MB):包含词汇表及每篇论文的前50个关键词索引,用于词云生成。

数据模式 (papers 工作表/CSV)

列名 来源 描述
venue 去重后 论文所属的主要会议/期刊 (ICRA/IROS/RA-L/T-RO/RSS/IJRR),应用了优先级规则。
venues_all 去重后 该论文出现过的所有会议/期刊列表,以逗号分隔。
year DBLP 论文发表/出版年份。
title DBLP 论文标题(经过HTML实体解码)。
authors DBLP 作者列表,以分号分隔,已移除DBLP的消歧标识符。
abstract OpenAlex 论文摘要(覆盖率约99%)。
cited_by_count OpenAlex 引用次数。
concepts OpenAlex OpenAlex自动分类的前5个主题,以分号分隔。
doi DBLP DOI(小写,已移除 https://doi.org/ 前缀)。
ee DBLP 电子版本URL(主要为IEEE Xplore链接)。
pages DBLP 页码范围。
dblp_key DBLP DBLP唯一标识键。
openalex_id OpenAlex OpenAlex Work ID。

数据特性与说明

  • 数据更新日期:引用次数会随时间变化。所有HTML页面右上角和Excel的summary工作表第一行均标有 "Citations as of YYYY-MM-DD",指示最后更新日期。
  • 摘要覆盖率:近期论文(约2010年后)覆盖率在95%以上,2010年之前的论文覆盖率较低。
  • DOI覆盖率:整体为99.9%,1990年之前的部分论文可能缺失。
  • 作者搜索:在Full Explorer中搜索作者姓名,页面底部会显示该作者的h-index、i10-index和引用次数直方图。
  • 数据更新:可通过提供的脚本更新引用次数或添加新年份的论文。

数据处理流程

数据处理管道主要包括以下步骤:

  1. 从DBLP收集元数据:配置会议/期刊和年份范围,生成原始数据缓存。
  2. 通过OpenAlex增强数据:补充摘要、引用次数和主题概念。
  3. 数据清洗与去重:包括解码、作者名清理、标题清理、基于DOI和(标题+年份)的去重,并生成最终的Excel文件。
  4. 生成词汇表:从摘要中提取词汇,生成词汇表文件。
  5. 生成HTML可视化页面:创建交互式探索器和年度统计页面。

致谢

  • DBLP (https://dblp.org/):提供论文元数据。
  • OpenAlex (https://openalex.org/):提供摘要、引用次数和主题概念。
  • Chart.js:用于数据可视化。
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人学领域,文献资源的系统整合对研究进展具有重要价值。RoboPaper Atlas的构建过程始于从DBLP和OpenAlex两大权威学术数据库中系统采集数据,覆盖ICRA、IROS、RA-L、T-RO、RSS及IJRR六大核心会议与期刊,时间跨度自1982年至2025年。通过自动化脚本逐项提取论文的标题、作者、摘要、引用次数及关键词等元数据,并基于DOI与规范化标题进行跨平台去重处理,确保每条记录的唯一性与准确性。随后利用OpenAlex接口对摘要和引用数据进行增强,最终通过结构化流程生成包含多维度信息的Excel文件及交互式网页可视化界面。
特点
该数据集囊括了机器人学领域四十余年的学术成果,收录超过七万三千篇高质量文献,构成一个全面而精炼的知识图谱。其核心特点在于提供了高度交互的在线探索平台,支持用户通过年份、会议、引用阈值及关键词等多重条件进行动态筛选与排序,并集成堆叠条形图、散点图等可视化工具直观展示学术趋势。数据集还嵌入了基于摘要生成的词云分析功能,能够揭示特定时间段或作者群体的研究主题分布。此外,每篇论文均附有实时更新的引用数据及直接链接至原文的DOI,为学者提供了便捷的文献溯源与计量分析支持。
使用方法
研究者可通过访问在线演示页面直接使用交互式探索工具,利用复合过滤器快速定位目标文献,并借助内嵌的图表进行趋势分析。对于深度数据分析,用户可下载完整的Excel数据集,其中包含摘要、年度统计及高被引论文等多个工作表,便于本地进行批量处理与统计。数据集还提供了详细的更新与重建指南,允许用户通过运行提供的Python脚本定期获取最新引用数据或扩展收录范围。对于大规模分析任务,建议将数据转换为Parquet格式后使用Pandas或DuckDB等工具进行高效查询,以充分发挥其结构化数据的价值。
背景与挑战
背景概述
机器人学作为一门融合机械、电子、计算机等多学科的前沿领域,其研究进展高度依赖于对历史文献的系统梳理与知识挖掘。RoboPaper Atlas数据集应运而生,由独立研究人员于近期构建,旨在整合过去四十余年间机器人学顶级会议与期刊的学术成果。该数据集通过自动化流程从DBLP和OpenAlex等权威学术数据库中爬取并清洗了超过七万三千篇论文的元数据,涵盖了ICRA、IROS、RA-L、T-RO、RSS和IJRR等重要出版源,时间跨度自1982年至2025年。其核心研究问题在于解决机器人学领域文献分散、检索不便的痛点,通过提供交互式可视化探索工具与结构化数据,显著提升了学术资源的可及性与分析效率,为研究者追踪领域演进、识别研究热点及评估学术影响力提供了坚实的数据基础。
当前挑战
在构建RoboPaper Atlas数据集过程中,面临多重技术挑战。首要挑战源于数据源的异构性与规模,需从DBLP和OpenAlex跨平台聚合海量元数据,并处理因会议与期刊交叉发表导致的记录重复问题,这要求设计精确的DOI与标题-年份去重算法以确保数据唯一性。其次,历史文献的元数据完整性不足,例如早期论文的摘要覆盖率和DOI标识可能存在缺失,影响下游分析的全面性。此外,数据集旨在支持复杂的学术计量分析,如个人h-index计算与主题词云生成,这对实时数据处理与交互式可视化性能提出了较高要求。构建流程还需应对API调用频率限制与数据更新同步等工程难题,以维持数据集的时效性与准确性。
常用场景
经典使用场景
在机器人学领域,RoboPaper Atlas数据集为研究者提供了一个全面且交互式的文献探索平台。该数据集整合了ICRA、IROS、RA-L、T-RO、RSS和IJRR等顶级会议与期刊自1982年以来的逾七万篇论文,涵盖标题、作者、摘要、引用次数及关键词等元数据。通过其内置的网页探索工具,用户能够依据年份范围、会议类型、最低引用量及关键词进行复合筛选,并借助堆叠条形图与散点图直观把握领域发展趋势,从而高效定位相关文献,支撑文献综述与前沿追踪。
解决学术问题
该数据集有效应对了机器人学研究中文献分散、检索效率低下的挑战。通过聚合多源数据并实施去重处理,它构建了一个统一、规范的学术资源库,使得学者能够系统分析领域内的引用网络、研究主题演变及作者影响力。其提供的h指数、i10指数及引用直方图等科学计量指标,为评估个人或团队学术贡献提供了量化依据,进而促进了学术评价的客观性与研究趋势的精准洞察。
衍生相关工作
基于RoboPaper Atlas的丰富数据,已衍生出多项经典研究工作。例如,学者利用其构建的时序引用网络,分析了机器人学不同子领域的知识扩散模式;亦有研究通过提取摘要中的关键词云,可视化了热门主题的年度变迁。此外,该数据集支撑了学术影响力预测模型的开发,以及跨会议论文重合度的计量分析。这些工作不仅深化了对机器人学学科结构的理解,也为科学学与信息计量学提供了宝贵案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作