AI 顶会论文数据集 (Top AI Conference Papers Dataset)

github2025-12-18 更新2025-12-20 收录

下载链接：

https://github.com/pursurer/top-ai-conference-papers

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库收集整理了人工智能领域各大顶级学术会议的论文元数据，便于研究人员快速检索、分析和追踪最新学术动态。

This repository collects and organizes paper metadata from top-tier academic conferences in the field of artificial intelligence, enabling researchers to quickly retrieve, analyze, and track the latest academic trends.

创建时间：

2025-12-18

原始信息汇总

AI 顶会论文数据集 (Top AI Conference Papers Dataset) 概述

数据集简介

本数据集收集整理了人工智能领域各大顶级学术会议的论文元数据，旨在便于研究人员快速检索、分析和追踪最新学术动态。

数据概览

数据集包含以下10个顶级会议的论文元数据：

会议简称	会议全称	主要领域	数据文件
AAAI	AAAI Conference on Artificial Intelligence	人工智能综合	`AAAI/aaai_papers.csv`
AAMAS	International Conference on Autonomous Agents and Multiagent Systems	多智能体系统	`AAMAS/aamas_2025_unified.csv`
ACL	Annual Meeting of the Association for Computational Linguistics	自然语言处理	`ACL/acl_papers.csv`
AISTATS	International Conference on Artificial Intelligence and Statistics	人工智能与统计	`AISTATS/aistats_papers.csv`
EMNLP	Conference on Empirical Methods in Natural Language Processing	自然语言处理	`EMNLP/emnlp_papers.csv`
ICLR	International Conference on Learning Representations	深度学习	`ICLR/iclr_papers.csv`
ICML	International Conference on Machine Learning	机器学习	`ICML/icml_papers.csv`
IJCAI	International Joint Conference on Artificial Intelligence	人工智能综合	`IJCAI/ijcai_papers.csv`
NAACL	Annual Conference of the North American Chapter of the ACL	自然语言处理	`NAACL/naacl_papers.csv`
NeurIPS	Conference on Neural Information Processing Systems	机器学习/神经网络	`NeurIPS/neurips_papers.csv`

数据格式

每个会议的数据以CSV文件提供，包含以下字段：

字段名	描述
`id`	论文唯一标识符
`title`	论文标题
`keywords`	关键词
`abstract`	摘要
`pdf`	PDF 下载链接
`forum`	论坛/讨论页面链接
`year`	发表年份
`presentation_type`	展示类型 (如 Oral, Poster 等)

补充说明：同时提供 .pkl 格式文件，方便 Python 用户直接使用 pandas 加载。

使用方式

Python 示例

读取数据： python import pandas as pd df = pd.read_csv(NeurIPS/neurips_papers.csv)

或

df = pd.read_pickle(NeurIPS/neurips_papers.pkl)
搜索特定主题： python rl_papers = df[df[title].str.contains(reinforcement learning, case=False, na=False)]

数据来源

数据通过爬虫从以下会议官方网站获取：

OpenReview (https://openreview.net/)
ACL Anthology (https://aclanthology.org/)
AAAI Digital Library (https://ojs.aaai.org/)
IFAAMAS Proceedings (https://www.ifaamas.org/)

许可与声明

许可证：MIT License
免责声明：
- 本数据集仅供学术研究使用。
- 论文版权归原作者及出版方所有。
- 请遵守各会议网站的使用条款。

搜集汇总

数据集介绍

构建方式

在人工智能学术研究领域，追踪顶级会议的最新成果对于把握前沿动态至关重要。该数据集通过自动化爬虫技术，系统性地从多个权威学术平台采集论文元数据，这些平台包括OpenReview、ACL Anthology、AAAI Digital Library以及IFAAMAS Proceedings等。采集过程聚焦于人工智能领域的十大核心会议，涵盖人工智能综合、机器学习、自然语言处理及多智能体系统等多个子领域，确保了数据来源的广泛性与代表性。原始数据经过清洗与结构化处理，最终以统一的CSV和Pickle格式存储，为后续的学术分析提供了可靠的基础。

特点

本数据集的一个显著特点是其跨会议、跨领域的综合性，它整合了AAAI、NeurIPS、ICML等十大顶级人工智能会议的论文信息，形成了一个覆盖广泛的学术资源库。数据字段设计科学且完整，不仅包含论文标题、摘要和关键词等核心内容，还提供了PDF下载链接、论坛页面以及发表年份和展示类型等元数据，便于用户进行多维度的检索与分析。同时，数据集以CSV和Pickle两种格式提供，兼顾了通用性与Python环境下的便捷性，能够有效支持大规模数据的快速加载与处理。

使用方法

研究人员可利用该数据集进行高效的学术信息检索与趋势分析。通过Python的pandas库，用户可以轻松加载CSV或Pickle格式的文件，快速访问结构化数据。例如，结合字符串匹配或自然语言处理技术，能够筛选出特定主题如“强化学习”的相关论文，进而统计其数量或分析历年变化。数据集中的摘要、关键词等文本字段也为主题建模、研究热点探测等更深入的文本挖掘任务提供了可能。整体而言，该数据集为人工智能领域的文献计量、趋势预测及知识发现提供了实用的数据支撑。

背景与挑战

背景概述

在人工智能研究领域，顶级学术会议的论文成果是推动学科发展的核心动力，它们不仅反映了前沿技术趋势，也塑造了未来的研究方向。AI顶会论文数据集由研究社区自发构建，旨在系统性地整合AAAI、NeurIPS、ICML等主要会议的论文元数据，为学者提供一站式的文献检索与分析平台。该数据集通过爬取OpenReview、ACL Anthology等官方来源，收录了论文标题、摘要、关键词及发表年份等结构化信息，自创建以来已成为追踪人工智能动态、进行文献计量和趋势预测的重要基础资源，显著提升了学术研究的效率与深度。

当前挑战

该数据集致力于解决人工智能领域文献信息过载与分散的挑战，旨在帮助研究者高效检索和综合分析跨会议的学术成果。然而，构建过程中面临多重困难：数据来源的异构性导致各会议网站结构差异显著，爬虫需不断适配以保障元数据的完整性与准确性；同时，论文版权与使用条款的合规性要求严格，需谨慎处理数据获取与共享的伦理边界。此外，随着会议规模的扩大与论文数量的激增，数据集的实时更新与长期维护也成为持续性的技术挑战，需要自动化流程与人工校验相结合以确保质量。

常用场景

经典使用场景

在人工智能研究领域，追踪学术前沿动态是推动理论创新的关键环节。该数据集通过整合多个顶级会议的论文元数据，为学者提供了一个高效的知识发现平台。研究人员可以便捷地检索特定主题的文献，例如利用关键词或标题筛选出强化学习领域的相关论文，从而快速把握该方向的最新进展与核心成果。这种集中化的数据访问方式，显著提升了文献调研的效率，并促进了跨会议的知识融合。

衍生相关工作

围绕该数据集，已衍生出多项具有影响力的学术工作。例如，基于其构建的学术图谱被用于分析不同子领域间的知识流动与交叉融合现象。另有研究利用其时间序列数据，开发了预测未来研究热点的模型。此外，该数据集常作为基准，用于评估新兴的文本挖掘、自然语言处理模型在学术文献理解任务上的性能，推动了相关方法学的进步。

数据集最近研究