five

SciArena-with-paperbank

收藏
Hugging Face2025-08-20 更新2025-08-22 收录
下载链接:
https://huggingface.co/datasets/yale-nlp/SciArena-with-paperbank
下载链接
链接失效反馈
官方服务:
资源简介:
SciArena是一个开放的合作平台,用于评估基础模型在科学文献理解和综合任务上的性能。它通过社区投票的方式来评价模型对开放式科学任务的响应,这些任务需要基于文献的长篇回答。数据集包含了问题、模型响应、用户投票、引用信息、问题类型、主题以及相关论文的集合。

SciArena is an open collaborative platform for evaluating the performance of foundation models on scientific literature understanding and synthesis tasks. It evaluates model responses to open-ended scientific tasks that require long-form literature-based answers via community voting. The dataset includes questions, model responses, user votes, citation information, question types, topics, and a collection of associated papers.
提供机构:
Yale NLP Lab
创建时间:
2025-08-20
搜集汇总
数据集介绍
main_image_url
构建方式
在科学文献评估领域,SciArena-with-paperbank数据集采用社区驱动的众包构建模式,通过收集真实用户提交的科学问题并邀请研究者对多个大语言模型的生成结果进行盲审投票。每个数据样本包含成对的模型响应、原始问题、学科分类及人工标注的优胜标签,最新版本创新性地引入了论文库特征,为每个问题动态关联经检索筛选的相关学术文献作为证据支撑。
使用方法
研究者可通过HuggingFace数据集库直接加载该资源,使用标准接口获取训练集与测试集划分。典型应用场景包括:基于人工投票标签训练模型偏好分类器,利用论文库特征增强生成模型的文献溯源能力,或构建科学问答系统的自动评估基准。测试集专设为元评估基准,支持对评估方法本身的可信度验证。
背景与挑战
背景概述
科学文献理解与生成领域长期面临评估范式的局限性,传统基准测试难以全面衡量模型在开放科学任务中的表现。2025年7月,艾伦人工智能研究所与耶鲁大学NLP团队联合推出SciArena平台,通过社区驱动的对比评估机制,构建了基于科学文献的大模型评估体系。该数据集创新性地采用人类偏好投票机制,要求模型提供文献支撑的长篇回答,推动了科学人工智能评估从封闭式任务向开放式论证的范式转变。
当前挑战
SciArena数据集面临双重挑战:在领域问题层面,科学文献任务要求模型具备深度的跨文献推理能力、准确的引证生成能力和长文本连贯性,这对现有大模型的科学素养提出极高要求;在构建过程中,需要解决社区投票的质量控制、多源文献的权威性验证、以及长文本对比评估的标准化等难题,确保评估结果的可靠性与科学性。
常用场景
经典使用场景
在科学文献智能处理领域,SciArena数据集通过社区投票机制构建了开放式科学问答评估框架。该数据集最典型的应用场景是评估大语言模型在长文本科学问答任务中的表现,研究者利用其包含的2000个科学问题样本及对应模型响应对比,系统分析模型在文献理解、知识整合和学术推理方面的能力差异。
解决学术问题
该数据集有效解决了科学自然语言处理中模型评估标准缺失的学术难题。通过引入人类专家投票机制和文献引证验证体系,为开放域科学问答提供了可量化的性能评估基准,显著提升了模型输出结果的可靠性与可解释性,推动了学术大模型评估方法学的创新发展。
实际应用
在实际应用层面,SciArena被广泛部署于学术搜索引擎智能应答系统、科研辅助工具开发以及科学教育平台构建。其提供的文献增强检索机制和模型响应质量评估体系,能够有效支持研究人员快速获取精准的科学知识,同时为学术机构提供模型选型与优化的决策依据。
数据集最近研究
最新研究方向
SciArena数据集作为科学文献评估领域的前沿平台,正推动基于大语言模型的科学文献理解与生成研究向社区驱动范式转变。该数据集通过集成论文检索库(paper_bank)特征,支持模型在开放域科学问题中生成具有文献支撑的长篇回答,有效解决了传统静态评估中缺乏动态人类反馈的局限。其采用的众包投票机制与Chatbot Arena一脉相承,但聚焦于科学领域的高复杂性任务,为评估模型在跨学科知识整合、文献引用准确性和科学推理深度等维度提供了新范式。这一创新不仅促进了科学LLM评估的透明化和民主化,更与当前AI4Science领域对可验证科学AI的需求形成深度共振,为构建下一代科学助手奠定了关键数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作