five

Paper dataset from ICML, NeurIPS and ICLR

收藏
github2024-03-23 更新2024-05-31 收录
下载链接:
https://github.com/cqql/icml-nips-iclr-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了2006年至2023年间ICML、NeurIPS和ICLR会议的所有论文标题、作者及其隶属关系。具体年份包括ICML 2017-2023,NeurIPS 2006-2022,ICLR 2018-2023(除2020年外)。

本数据集收录了自2006年至2023年期间,国际机器学习会议(ICML)、神经信息处理系统会议(NeurIPS)以及国际学习表示会议(ICLR)的全部论文标题、作者及其所属机构。具体涵盖年份为ICML会议的2017至2023年,NeurIPS会议的2006至2022年,以及ICLR会议的2018至2023年(不包括2020年)。
创建时间:
2018-10-03
原始信息汇总

数据集概述

数据集名称

Paper dataset from ICML, NeurIPS and ICLR

数据集内容

该数据集包含以下三个会议的论文标题、作者及其所属机构信息:

  • ICML: 2017-2023
  • NeurIPS: 2006-2022
  • ICLR: 2018-2023 (除2020年外)

数据集结构

数据集以CSV格式存储,包含以下字段:

  • Conference (会议名称)
  • Year (年份)
  • Title (论文标题)
  • Author (作者)
  • Affiliation (所属机构)

数据更新

数据集可以通过以下命令进行更新:

  • 完整重新抓取:python scrape.py 2006-2021
  • 仅更新新增数据:python scrape.py --output update.csv 2019-2021 并追加到主文件 papers.csv 中。

注意事项

  • 2020年ICLR会议因新冠疫情采用虚拟格式,其数据未被包含在内。
  • 更新数据时需注意避免重复条目。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过自动化脚本从ICML、NeurIPS和ICLR三个顶级机器学习会议的官方网站上爬取论文信息构建而成。数据涵盖了ICML(2017-2023年)、NeurIPS(2006-2022年)以及ICLR(2018-2023年,除2020年外)的所有论文标题、作者及其所属机构。由于2020年新冠疫情的影响,ICLR采用了不同于往年的虚拟会议形式,导致该年份的数据未被收录。数据爬取脚本仅兼容各会议引入的特定网页界面,确保了数据的完整性和一致性。
特点
该数据集以其广泛的时间跨度和多样化的会议来源为显著特点,涵盖了机器学习领域近二十年的研究成果。数据以CSV格式存储,每行记录包含会议名称、年份、论文标题、作者及其所属机构,结构清晰且易于解析。由于数据来源均为顶级会议,确保了论文的高质量和学术影响力。此外,数据集还提供了更新机制,用户可以通过重新爬取或追加新数据的方式保持数据的最新状态,同时需注意避免重复记录。
使用方法
用户可以通过运行提供的Python脚本`scrape.py`来更新或重新生成数据集。脚本支持指定年份范围进行数据爬取,并可将结果直接输出到CSV文件中。对于已有数据集的更新,用户可以选择仅爬取新数据并追加到现有文件中,确保数据的连续性和完整性。在使用过程中,需注意避免因重复爬取相同年份数据而导致的重复记录问题。数据集的结构化格式使其适用于多种分析场景,如作者影响力研究、机构合作网络分析以及论文主题趋势预测等。
背景与挑战
背景概述
在人工智能与机器学习领域,顶级学术会议如ICML、NeurIPS和ICLR的研究成果代表了该领域的前沿进展。Paper dataset from ICML, NeurIPS and ICLR数据集汇集了这些会议自2006年至2023年间的论文标题、作者及其所属机构信息。该数据集由匿名研究人员或机构创建,旨在为学术界提供一个全面的文献资源,便于研究人员追踪领域内的研究趋势、合作网络及机构影响力。其覆盖的时间跨度广泛,尤其对机器学习、深度学习等领域的文献计量学研究具有重要价值。
当前挑战
该数据集在构建与应用过程中面临多重挑战。首先,数据采集依赖于会议官网的网页结构,而不同年份的网页格式变化可能导致数据缺失或不一致,例如ICLR 2020年因疫情采用特殊页面格式而未被收录。其次,数据更新过程中可能引入重复条目,需通过脚本或手动检查确保数据完整性。此外,数据集的广泛应用依赖于其准确性与时效性,如何高效地扩展数据覆盖范围并保持数据质量,是未来需要解决的关键问题。
常用场景
经典使用场景
该数据集广泛应用于机器学习领域的文献计量分析,研究者通过分析ICML、NeurIPS和ICLR三大顶级会议的论文标题、作者及其所属机构,揭示学术研究趋势、合作网络及机构影响力。这一数据集为学者提供了跨年度的全面视角,助力于深入理解机器学习领域的发展脉络。
实际应用
在实际应用中,该数据集被广泛应用于学术机构的研究评估、科研政策制定以及企业研发战略规划。通过分析顶级会议的论文数据,机构能够评估自身在机器学习领域的竞争力,识别潜在合作伙伴,并优化资源配置以提升科研产出。
衍生相关工作
基于该数据集,衍生出多项经典研究工作,例如机器学习领域的学术影响力评估模型、跨机构合作网络分析工具以及研究热点预测算法。这些工作不仅丰富了文献计量学的研究方法,也为机器学习领域的学术生态提供了数据驱动的决策支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作