five

DeepReview-13K|学术论文评审数据集|自动化评估系统数据集

收藏
arXiv2025-03-11 更新2025-03-13 收录
学术论文评审
自动化评估系统
下载链接:
http://ai-researcher.net
下载链接
链接失效反馈
资源简介:
DeepReview-13K是由浙江大学工程学院和西湖大学合作创建的一个结构化评审数据集。该数据集包含了原始研究论文、结构化的中间评审步骤和最终评估,旨在解决自动化评审系统中存在的缺乏细粒度专家评估过程的问题。DeepReview-13K数据集包含了13378条有效样本,是从两个ICLR会议周期(2024-2025)的18976篇论文投稿中收集并经过严格质量控制的。
提供机构:
浙江大学工程学院,西湖大学
创建时间:
2025-03-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
DeepReview-13K数据集的构建是通过从OpenReview平台和arXiv存储库中收集原始数据,包括两个ICLR会议周期(2024-2025)中的18,976篇论文提交。这些论文被转换为可解析的Markdown格式,并使用MinerU工具进行解析。对于每篇论文,我们构建了一个包含三个关键组成部分的审查集R:(1)文本评估(优点、缺点和问题),(2)反驳阶段的交互式讨论,以及(3)标准化评分,包括总体评分(∈ [1, 10])和对论文完整性的细粒度评估(∈ [1, 4])。此外,我们还收集了元审查文本和最终评分,包括接受决定。最终,DeepReview-13K数据集由13,378个有效样本组成,作为构建审查推理链的基础。
特点
DeepReview-13K数据集的特点在于其结构化的中间审查步骤和最终评估。它包含原始研究论文、结构化的中间审查步骤和最终评估,使得模型能够学习系统性的审查推理链。此外,数据集还包含细粒度的审查推理链,这有助于模型学习更深入、更全面的审查推理过程。
使用方法
DeepReview-13K数据集可用于训练和评估大型语言模型(LLM)在论文审查任务上的性能。研究人员可以使用该数据集来训练自己的模型,或者评估现有模型的性能。此外,数据集还可以用于研究和开发新的审查框架和方法。
背景与挑战
背景概述
在科学研究的评估领域,同行评审是确保研究成果质量的关键环节。随着研究提交量的增加,大型语言模型(LLMs)在自动化论文评审中的应用日益增多。然而,现有的基于LLM的评审系统面临着一些重大挑战,包括领域专业知识有限、推理过程中可能出现幻觉、缺乏结构化评估等。为了解决这些问题,Zhejiang University School of Engineering和Westlake University的研究人员Minjun Zhu等人提出了DeepReview,一个多阶段框架,旨在通过结合结构化分析、文献检索和基于证据的论证来模拟专家评审过程。他们使用了名为DeepReview-13K的精选数据集,该数据集包含结构化注释,用于训练DeepReviewer-14B模型,该模型在 fewer tokens 的情况下优于CycleReviewer-70B。DeepReviewer-14B在最佳模式下,在评估中对GPT-o1和DeepSeek-R1的胜率分别为88.21%和80.20%,为基于LLM的论文评审设定了新的基准。
当前挑战
DeepReview-13K数据集和相关模型面临着一些挑战。首先,现有的基于LLM的评审系统难以全面识别提交的缺陷,导致反馈肤浅。其次,这些系统缺乏基于证据的论证,无法提供清晰、可操作的改进建议。此外,它们容易受到提示工程的影响,导致评估结果不准确。为了解决这些挑战,DeepReview框架采用了结构化的多阶段评审流程,包括新颖性评估、多维评价标准和可靠性验证。DeepReview-13K数据集通过整合检索和排名、自我验证和自我反思,确保了LLM生成建议的合理性和稳健性。DeepReviewer-14B模型提供了三种推理模式:快速、标准和最佳,使用户能够在效率和响应质量之间进行权衡。然而,DeepReview框架仍然依赖于合成数据集,这可能无法完全捕捉真实人类论文评审的复杂性和细微差别。此外,DeepReviewer的“最佳”模式可能需要大量的计算资源。尽管DeepReviewer展示了在对抗性攻击下的鲁棒性,但完全的免疫性尚未实现,这表明需要进一步研究以提高其安全性。
常用场景
经典使用场景
DeepReview-13K数据集主要用于训练和评估大语言模型(LLM)在论文评审领域的表现,特别是通过模拟专家评审过程来提高LLM的论文评审能力。该数据集包含结构化的注释,可以用于训练DeepReviewer模型,该模型在论文评审任务中表现出色,能够提供比现有LLM模型更深入、更可靠的评审意见。DeepReviewer模型具有三种推理模式:快速模式、标准模式和最佳模式,用户可以根据需要平衡效率和响应质量。此外,DeepReview-Bench基准测试集用于评估LLM在论文评审任务中的表现,包括评分预测、质量排名和论文选择等定量方面,以及通过LLM评估的定性评审生成。DeepReview-13K数据集和DeepReview-Bench基准测试集的发布,为LLM在论文评审领域的应用提供了新的基准和评估工具。
衍生相关工作
DeepReview-13K数据集衍生了DeepReviewer模型,该模型在论文评审任务中表现出色,并具有三种推理模式:快速模式、标准模式和最佳模式,用户可以根据需要平衡效率和响应质量。DeepReview框架的提出,为LLM在论文评审领域的应用提供了新的思路和方法,并为相关研究提供了新的基准和评估工具。此外,DeepReview框架的发布也促进了LLM在论文评审领域的进一步研究和应用,为相关研究提供了新的方向和思路。
数据集最近研究
最新研究方向
DeepReview-13K数据集的提出标志着大型语言模型(LLMs)在学术论文评审自动化领域的研究迈出了重要一步。该数据集通过提供结构化的注释,帮助训练了DeepReviewer-14B模型,该模型在模拟专家评审流程方面取得了显著进展。DeepReviewer框架通过引入结构化分析、文献检索和基于证据的论证,旨在克服现有LLMs在领域专业知识、推理幻觉和评估结构方面的局限性。DeepReviewer-14B模型在多个评估维度上优于CycleReviewer-70B等现有系统,并在与GPT-o1和DeepSeek-R1的对比中取得了高胜率。该研究为LLMs在学术论文评审中的应用设立了新的基准,并通过公开资源的方式促进了该领域的发展。
相关研究论文
  • 1
    DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process浙江大学工程学院,西湖大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录