five

ScholarIdeas

收藏
github2025-10-24 更新2025-10-26 收录
下载链接:
https://github.com/skai-research/ScholarEval
下载链接
链接失效反馈
官方服务:
资源简介:
ScholarIdeas是第一个专家标注的研究想法数据集,包含117个研究想法及其评论,涵盖人工智能、神经科学、生物化学和生态学四个领域。每个评论由多个评分标准组成,整个数据集共包含1076个评分标准。

ScholarIdeas is the first expert-annotated research idea dataset. It includes 117 research ideas and their associated reviews, covering four academic fields: artificial intelligence, neuroscience, biochemistry, and ecology. Each review consists of multiple grading criteria, and the total number of grading criteria across the entire dataset reaches 1076.
创建时间:
2025-09-29
原始信息汇总

ScholarEval数据集概述

数据集简介

ScholarEval是一个基于检索增强的研究思想评估框架,配套发布ScholarIdeas专家标注数据集。该数据集专门用于评估研究思想在文献基础上的两个关键维度:合理性和贡献度。

核心特性

  • 评估维度:专注于研究思想的合理性和贡献度评估
  • 合理性:基于现有文献评估所提方法的实证有效性
  • 贡献度:评估相对于先前工作的推进程度

ScholarIdeas数据集详情

数据规模

  • 包含117个研究思想及其评审意见
  • 涵盖四个学科领域:人工智能、神经科学、生物化学、生态学
  • 总共包含1076个评审标准

数据结构

  • 每个学科文件夹包含:
    • {学科}_{编号}.txt:研究思想文本文件
    • {学科}_{编号}.jsonl:评审标准文件(每行一个标准)
    • cutoff.txt:文献搜索截止日期(原始论文发表日期)

技术实现

评估流程

使用ScholarEval框架为研究思想生成合理性和贡献度评估,核心代码位于ScholarEval/scholareval.py

运行方式

bash cd ScholarEval ./run_scholareval.sh <研究思想文件路径> <LLM引擎名称> [litellm名称]

评估效果

  • 在ScholarIdeas数据集上显著优于所有基线模型
  • 在可操作性、深度和证据支持方面持续优于OpenAI的o4-mini-deep-research
  • 在专家用户研究中,在文献参与度、思想完善度和整体实用性方面表现优异

相关资源

  • 数据集创建流程:dataset_creation/
  • 评估流程:evaluation/(涵盖覆盖率、参考无效性、LLM指标等)

引用信息

如需使用ScholarEval或ScholarIdeas,请引用相关论文。

搜集汇总
数据集介绍
main_image_url
构建方式
在学术研究评估领域,构建高质量数据集需兼顾学科广度与专家深度。ScholarIdeas数据集通过系统化流程收集了117个研究构想,涵盖人工智能、神经科学、生物化学和生态学四大前沿领域。其构建过程采用专家标注机制,由领域学者对每个研究构想进行多维度评审,最终形成包含1076个评估准则的标准化语料库。数据集严格设定了文献检索截止日期,确保评估基准与学术发展脉络同步。
使用方法
研究者可通过克隆代码库直接调用数据集文件,所有研究构想与对应评估准则均按学科分类存储。使用流程支持命令行操作,只需指定研究构想文件路径与语言模型引擎参数即可启动评估流程。数据集配套提供完整的验证框架,包含覆盖率计算、参考文献有效性检测等模块,用户可结合自定义模型进行基准测试。该资源特别适合用于开发文献增强型评估系统,或作为学术创新性检测任务的训练样本。
背景与挑战
背景概述
在人工智能与跨学科研究深度融合的背景下,ScholarIdeas数据集于2025年由多机构研究团队共同构建,旨在填补学术创新评估领域的数据空白。该数据集聚焦于研究思路的文献支撑性与创新性评估,涵盖人工智能、神经科学、生物化学及生态学四大前沿领域,通过专家标注的117项研究提案及其1076条评估准则,为量化科研创新价值提供了首个标准化基准。其构建标志着学术评价体系从主观经验向数据驱动的重要转型,对促进交叉学科研究范式的革新具有深远影响。
当前挑战
该数据集核心挑战在于解决跨领域研究思路的量化评估难题,需在保持学科特异性的同时建立统一评估框架。构建过程中面临多重挑战:一是专家标注的一致性保障,需协调不同领域评审标准以维持标注质量;二是文献时效性控制,要求精确设定文献检索截止日期以避免知识更新导致的评估偏差;三是评估维度平衡,需在方法严谨性与创新贡献度之间建立可量化的权衡标准。这些挑战直接关系到数据集的科学效度与实用价值。
常用场景
经典使用场景
在学术研究领域,ScholarIdeas数据集为评估科研创新性提供了标准化基准。该数据集通过涵盖人工智能、神经科学、生物化学和生态学四大领域的117个研究构想及专家评审,构建了多维度评估框架。研究者可借助该数据集验证新提出方法的实证有效性,并系统分析其相对于已有工作的推进程度,从而为学术创新提供量化支撑。
解决学术问题
该数据集有效解决了科研构想评估中缺乏客观标准的核心难题。通过1076个专家标注的评估细则,建立了基于文献的实证有效性(Soundness)与创新贡献度(Contribution)双重评价体系。这种结构化评估机制显著提升了学术成果评价的透明度和可复现性,为跨学科研究质量评估提供了统一方法论基础。
实际应用
在实际科研工作流程中,该数据集可集成至智能评审系统辅助学术决策。研究机构能够参照其评估框架对新课题进行前瞻性论证,期刊评审可依据标准化细则衡量投稿的创新价值。教育领域亦可将其作为研究生科研能力训练的实践教材,通过对比专家标注与自主评估的差异提升学术鉴赏能力。
数据集最近研究
最新研究方向
在人工智能驱动的学术创新领域,ScholarIdeas数据集正推动研究评估范式的变革。该数据集作为首个跨学科专家标注的研究思想评估基准,聚焦于人工智能、神经科学、生物化学与生态学四大前沿领域,通过1076项结构化评估指标构建了多维评价体系。当前研究热点集中于开发文献增强的智能评估框架,利用大语言模型对研究思想的实证严谨性与学术贡献度进行量化分析。这类工作显著提升了学术创新的可验证性,其评估结果在专家盲测中展现出超越传统深度研究模型的性能优势,为加速跨学科知识融合与科研决策自动化提供了关键基础设施。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作