five

ScienceBoard Benchmark

收藏
arXiv2025-09-30 收录
下载链接:
https://qiushisun.github.io/ScienceBoard-Home/
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个由人类精心策划的具有挑战性的基准,包含了169个高质量、经过严格验证的真实世界任务,覆盖了包括生物化学、天文学和地理信息学等领域的科学发现工作流程。该数据集包含了不同难度级别的任务,旨在评估不同模型在真实科学环境中的表现。规模上,该数据集跨越了多个科学领域的169项任务,其任务目标是评估科学工作流程中的多模态自主代理性能。

This dataset is a rigorously curated challenging benchmark containing 169 high-quality, strictly validated real-world tasks covering scientific discovery workflows across disciplines including biochemistry, astronomy, and geoinformatics. It features tasks of varying difficulty levels, designed to evaluate the performance of different models in real-world scientific scenarios. In terms of scale, this dataset includes 169 tasks spanning multiple scientific domains, with the core objective of assessing the performance of multimodal autonomous agents in scientific discovery workflows.
提供机构:
ScienceBoard Team
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作