ICLR 2026 Institutional Affiliations Dataset

github2026-05-09 更新2026-05-10 收录

下载链接：

https://github.com/DmytroLopushanskyy/iclr2026-affiliations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含ICLR 2026会议接受的5,356篇论文的机构隶属关系信息，数据来源于论文标题块的PDF文件，避免了OpenReview个人资料漂移问题。数据集提供了作者、机构、国家/地区、摘要等详细信息，并进行了机构名称的规范化处理。

This dataset contains institutional affiliation information for 5,356 papers accepted at the ICLR 2026 conference. The data is sourced from PDF files of the paper title blocks, which avoids the issue of profile drift on OpenReview. It provides detailed information including authors, institutions, countries/regions, abstracts and other relevant details, with institutional names normalized.

创建时间：

2026-05-09

原始信息汇总

ICLR 2026 机构归属数据集与分析

数据集概述

本数据集包含 5,356 篇 ICLR 2026 被接收论文的机构归属信息，数据来源于论文 PDF 文件而非作者个人资料，以避免作者个人资料展示当前就职机构而非论文实际完成机构的偏差问题。

核心特点

PDF 提取：约 94% 的归属信息直接从论文 PDF 的标题块提取，仅约 6% 因 PDF 解析失败使用 OpenReview 资料作为后备
去重计数：每个机构在一篇论文中只计数一次，无论该论文有多少位作者来自该机构
标准化处理：通过约 250 条规则将机构名称规范化（如 MIT、Massachusetts Institute of Technology、MIT CSAIL 均归为 MIT）

数据文件说明

文件	说明
`iclr2026_public.csv` / `.xlsx`	主数据集，包含 5,356 篇论文的 PDF 提取作者与机构、规范化机构名称、国家/地区、摘要、OpenReview 链接
`iclr2026_institutions_ranked_unique.csv`	按唯一归属计数（每篇论文每个机构 +1）排名的 Top-N 机构
`iclr2026_institutions_ranked_first_author.csv`	仅按第一作者机构计数的排名
`iclr2026_institutions_ranked_fractional.csv`	按分数 1/N 信用分配的机构排名
`iclr2026_method_sensitivity.csv`	三种计数方法下的排名对比，检验机构排名的稳健性

主数据集列字段

列名	含义
`Decision`	Oral 或 Poster
`Title`	论文标题（LaTeX 数学符号已转换为 Unicode）
`Authors`	分号分隔的作者列表（按作者顺序）
`Institutions`	PDF 提取的作者机构（与作者行顺序对应）
`Institutions_canonical`	经标准化规则处理后的机构名称（每篇论文去重）
`Countries`	每篇论文去重后的国家列表
`Regions`	每篇论文的高层级区域
`Affiliation_source`	归属来源标识（pdf / parse_fail / no_pdf）
`Primary_Area`	OpenReview 赛道
`Keywords`	作者提供的关键词
`Abstract`	全文摘要
`OpenReview_URL`	论文的 OpenReview 链接

图表可视化

提供 ICLR 2026 Top 50 机构树状图，按区域分组：

每个矩形代表一个机构，大小按该机构出现的论文数量
区域单元按 Top-50 机构的累积计数显示
浅色 = 学术/研究机构，深色 = 工业界

相应图表文件（位于 charts/ 目录）：

iclr2026_top50_treemap_unique_grouped.png
iclr2026_top50_treemap_unique_grouped_square.png（1:1 比例版本）

PDF 解析方法

解析器处理 ICLR 模板论文中常见的四种布局模式：

样式 A：编号脚注标记
样式 B：无标记，单一共享机构
样式 C：每作者以电子邮件分隔的区块
样式 D：交替的名称/机构对（无邮箱）

额外过滤掉"Equal contribution"、"Corresponding author"等脚注文本干扰。整体 96% 的论文解析成功。

方法论选择

计数规则：每篇论文每个机构计一次（与 AI World NeurIPS 排行榜规则相同）
规范化：约 250 条正则规则处理拼写/缩写变体
区域分组：国家 → 17 个高层级区域（香港因高等教育体系独立于中国大陆单独列出）

搜集汇总

数据集介绍

构建方式

该数据集基于ICLR 2026全部5,356篇录用论文构建而成，核心创新在于直接从每篇论文的PDF标题块中提取作者所属机构信息，而非依赖OpenReview作者个人资料中可能过时的任职记录。构建流程涵盖五个步骤：首先通过OpenReview API爬取元数据，随后下载全部论文PDF，接着利用专为ICLR模板设计的解析器处理四种常见版面布局模式（编号脚注标记、无标记共享机构、按邮箱分隔的作者段落、无邮箱的作者/机构交替对），仅约6%的解析失败情形回退至OpenReview数据。此后，经过去重、LaTeX数学符号转Unicode以及基于约250条正则规则的机构名称标准化（如将MIT、Massachusetts Institute of Technology、MIT CSAIL统一映射至MIT），最终生成规范化的公开数据集。此外还提供三种计数变体（每篇论文唯一计数、第一作者计数、分数计数）以支持敏感性分析。

使用方法

用户可通过两条路径使用该数据集。快速入门仅需克隆仓库、安装依赖后运行make_iclr_treemap.py脚本，即可利用已发布的CSV文件直接生成展示前50强机构区域分布的可视化矩形树图（支持正方形社交版式及OpenReview源对比模式）。进阶用户若需复现完整流程或迁移至其他会议，可依次执行五个脚本——scrape_openreview.py、download_missing_pdfs.py、build_pdf_spreadsheet.py、build_public_spreadsheet.py及make_iclr_treemap.py——但需注意网络耗时约1至2小时及约5GB的PDF缓存磁盘空间。所有解析失败的论文在Affiliation_source列中透明标记，确保用户能追溯数据质量并酌情筛选。

背景与挑战

背景概述

在人工智能研究的迅猛浪潮中，顶级学术会议如ICLR（International Conference on Learning Representations）的论文采纳与机构分布，已成为衡量该领域科研实力与产业格局的重要风向标。ICLR 2026 Institutional Affiliations Dataset由研究者Dmytro Lopushanskyy于2025年创建，旨在通过端到端流水线，从5356篇ICLR 2026接收论文的PDF标题栏中精准提取作者所属机构，生成一份清洁、结构化的机构隶属关系数据集。该数据集的核心研究问题在于规避OpenReview作者档案漂移现象（即作者当前职位被错误标注于过往论文），从而真实反映各机构在AI研究前沿的实际贡献。通过引入PDF解析与规范化规则，该数据集为学术界与工业界提供了高可信度的排名依据，其影响力延伸至科研政策、人才流动及合作网络分析等领域。

当前挑战

该数据集所面临的挑战主要源于两个维度。在领域问题层面，顶尖AI会议的机构排名长期受制于数据源偏差——OpenReview个人档案中当前隶属关系的覆盖，导致历史论文的机构归属失实，严重干扰了科研实力的客观评估。ICLR 2026数据集通过PDF源解析将错误率降至6%以下，但仍需应对排版样式的多样性（如脚注标记、作者-机构交替布局等），以及LaTeX公式转Unicode时的语义保真度问题。在构建过程中，大规模PDF下载面临速率限制与网络中断风险（约5GB数据量需1-2小时），此外，约4%的PDF因格式异常而解析失败，需回退至OpenReview档案，这一混合数据来源可能引入残余的不一致性。机构名称规范化也是关键挑战，需通过250条正则规则消除缩略与全称的歧义，并在计数方法（独立计数、第一作者计数、分数计数）中确保前50名机构的排序稳健性，从而过滤方法伪影带来的干扰。

常用场景

经典使用场景

在人工智能与学术计量学的交叉领域中，该数据集为机构科研产出的量化分析提供了坚实的数据基石。其最经典的使用场景在于统计并可视化全球顶尖机构在顶级会议ICLR上的论文贡献度。通过从论文PDF标题栏而非作者个人资料中准确提取所属机构，它有效规避了因作者职业流动导致的隶属信息漂移问题，从而能够精准生成机构排名与区域分布树图。研究者可利用该数据集进行机构间科研生产力比较、区域科研格局演变分析，以及学术界与工业界参与度的量化评估。

解决学术问题

该数据集精准解决了学术评价中的一个关键难题：作者隶属关系的溯源准确性。长期以来，基于OpenReview作者资料库的统计方法会将作者当前所在机构错误地关联至其所有过往发表，导致机构贡献的量化失真。ICLR 2026 Institutional Affiliations Dataset通过直接解析论文PDF的标题栏信息，并辅以约250条规范化规则对机构名称进行对齐（如将MIT、Massachusetts Institute of Technology等变体统一为MIT），提供了高保真的机构归属数据。这一方法革新使得学术机构产出排名更具鲁棒性，推动了科研评估方法论的演进。

实际应用

在实际应用层面，该数据集为科研政策制定与人才战略部署提供了数据驱动的决策支持。高校与科研机构可借此进行针对性的对标分析，明确自身在全球人工智能研究竞争格局中的位次与优劣势。工业界实验室（如Google、Meta）能够通过该数据集评估其在基础研究领域的投入与影响力，从而优化研发资源配置。此外，该数据集对区域科研生态的细分（如将香港与大陆分开统计）还为政府及基金资助机构提供了更为精细的跨地域科研合作与竞争图景。

数据集最近研究