five

SuperGPQA 学科领域评估基准数据集

收藏
超神经2025-02-27 更新2025-03-01 收录
下载链接:
https://hyper.ai/cn/datasets/38032
下载链接
链接失效反馈
官方服务:
资源简介:
SuperGPQA 是一个用于评估高级问答系统性能的基准数据集,由 Multimodal Art Projection 团队于 2025 年开发,相关论文成果为「SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines」。该数据集专注于自然语言处理和机器学习评估领域,旨在通过跨学科的复杂问题来测试模型的推理能力和知识水平。

SuperGPQA is a benchmark dataset for evaluating the performance of advanced question answering systems. It was developed by the Multimodal Art Projection team in 2025, with its associated academic paper titled "SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines". This dataset focuses on the field of natural language processing and machine learning evaluation, aiming to test the reasoning ability and knowledge level of models through interdisciplinary complex questions.
创建时间:
2025-02-27
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SuperGPQA是一个由Multimodal Art Projection团队于2025年开发的基准数据集,用于评估高级问答系统在自然语言处理和机器学习领域的性能。该数据集覆盖285个研究生级别的学科领域,包含生物学、物理学、化学等多个科学领域的复杂问题,旨在测试模型的推理能力和知识水平。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务