AI Idea Bench 2025
收藏arXiv2025-04-19 更新2025-04-23 收录
下载链接:
https://ai-idea-bench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
AI Idea Bench 2025是由武汉大学计算机学院、上海人工智能实验室和哈尔滨工业大学共同构建的一个综合数据集,包含3,495篇在AI相关会议上发表的有影响力的论文及其相应的启发论文。该数据集旨在为评估和比较大型语言模型在AI研究领域能够产生的创意想法提供一个全面的评价基准。数据集中的论文均发表在2023年10月10日之后的AI相关会议上,通过精心的数据筛选和预处理,为研究想法生成方法的有效性评估提供了可靠的基础。
AI Idea Bench 2025 is a comprehensive dataset jointly constructed by the School of Computer Science of Wuhan University, Shanghai AI Laboratory, and Harbin Institute of Technology. It contains 3,495 influential papers published in AI-related conferences and their corresponding inspiring papers. This dataset aims to provide a comprehensive evaluation benchmark for assessing and comparing the creative ideas that large language models (LLMs) can generate in the field of AI research. All papers included in the dataset were published in AI-related conferences after October 10, 2023. Through rigorous data screening and preprocessing, it offers a reliable foundation for evaluating the effectiveness of research idea generation methods.
提供机构:
武汉大学计算机学院, 上海人工智能实验室, 哈尔滨工业大学
创建时间:
2025-04-19
搜集汇总
数据集介绍

构建方式
AI Idea Bench 2025数据集的构建过程体现了严谨的科学方法论。研究团队从顶级AI会议(如ICLR 2025、CVPR 2024等)精选3,495篇发表于2023年10月后的论文作为基准事实,并采用arXiv API确保数据时效性。通过SciPDF Parser和Deepseek V3工具,系统提取每篇目标论文的5篇最高引用文献作为灵感来源。创新性地对文献动机和实验步骤进行匿名化处理,保留方法论描述而隐去具体名称,构建了具有明确知识边界的输入-输出对。这种构建方式有效规避了LLMs训练数据泄露风险,为开放式创意生成提供了可靠的基础数据。
特点
该数据集具有三个显著特征:首先,其时间边界设计(以GPT-4o知识截断日期为界)确保了评估的公正性,避免了预训练知识污染。其次,创新性地整合了目标论文与灵感文献的动机-实验框架对应关系,为创意质量评估提供了双重维度。第三,数据集包含细粒度的主题标注和概念分解,支持从语义对齐到可行性评估的多层次分析。特别值得注意的是,数据集通过匿名化处理实现了方法论的抽象表达,既保护了知识产权,又强化了概念迁移的评估效度。
使用方法
使用该数据集需遵循其设计的双层评估框架:首先进行目标论文对齐评估,通过多选题测试(IMCQ)、创意匹配度(I2I)和主题相关性(I2T)三个指标验证生成创意与基准事实的吻合度。继而开展参照系评估,采用创意竞赛(IC)、新颖性评估(NA)和可行性分析(FA)等方法,在更广阔的文献背景下检验创意的创新价值与实践潜力。研究者可通过提取论文主题、分解实验步骤、构建创意池等标准化流程,系统评估不同生成方法在科学发现自动化中的表现。为保障结果可比性,建议统一使用GPT-4o作为基础模型以控制知识截断变量。
背景与挑战
背景概述
AI Idea Bench 2025是由武汉大学、上海人工智能实验室和哈尔滨工业大学的研究团队于2025年提出的一个创新性基准数据集和评估框架,旨在系统评估大型语言模型(LLMs)在AI研究领域生成新想法的能力。该数据集包含3,495篇发表于2023年10月后的AI领域顶级会议论文及其启发文献,通过定量评估生成想法的质量、新颖性和可行性,推动科学发现的自动化进程。其核心研究问题是解决当前LLMs在创意生成评估中存在的知识泄露、缺乏开放式基准及可行性分析受限等关键挑战,对促进AI驱动的科研创新具有重要影响力。
当前挑战
AI Idea Bench 2025面临两大核心挑战:1) 领域问题挑战:需解决LLMs生成想法时与真实研究内容的对齐度评估难题,包括跨论文动机与实验设计的语义匹配、开放词汇环境下创新性的量化,以及多步骤实验计划的可行性验证;2) 构建过程挑战:需规避模型训练数据的时间截断偏差(如GPT-4o的知识截止问题),通过严格筛选2023年10月后发表的论文作为真实基准,并设计双维度评估体系(基于目标论文内容对齐和外部参考文献判断)来确保评估的客观性和可解释性。
常用场景
经典使用场景
在人工智能研究领域,AI Idea Bench 2025数据集被广泛用于评估和比较大型语言模型(LLMs)在生成研究创意方面的能力。该数据集通过提供3495篇AI领域的高质量论文及其启发文献,为研究者提供了一个标准化的测试平台,用于衡量模型生成的创意与真实研究内容之间的对齐程度。
衍生相关工作
AI Idea Bench 2025的推出催生了一系列相关研究,如基于该数据集的创意生成模型优化工作、多模态评估框架的开发,以及结合领域知识的专用创意生成系统。这些衍生工作进一步扩展了数据集的应用范围,并在自动化科学发现领域形成了新的研究方向。
数据集最近研究
最新研究方向
AI Idea Bench 2025数据集的最新研究方向主要集中在利用大规模语言模型(LLMs)进行科学研究想法的生成与评估。该数据集通过构建包含3,495篇AI领域论文及其启发文献的全面数据集,提出了一个多视角的评估框架,旨在定量比较LLMs生成的研究想法。前沿研究方向包括:1)避免知识泄露问题,通过筛选模型知识截止日期后的论文作为真实基准;2)开发开放式评估范式,结合目标论文内容和其他参考文献对生成想法的质量、创新性和可行性进行多维度评估;3)推动科学发现自动化进程,通过标准化评估促进更有效的科研想法生成技术的发展。该数据集通过解决现有评估方法在真实基准缺失和可行性分析局限等方面的不足,为AI辅助科研创新提供了重要基础设施。
相关研究论文
- 1AI Idea Bench 2025: AI Research Idea Generation Benchmark武汉大学计算机学院, 上海人工智能实验室, 哈尔滨工业大学 · 2025年
以上内容由遇见数据集搜集并总结生成



