five

ARB|复杂推理数据集|多学科评估数据集

收藏
github2023-07-01 更新2025-02-07 收录
复杂推理
多学科评估
下载链接:
https://github.com/TheDuckAI/arb
下载链接
链接失效反馈
资源简介:
ARB数据集包含1207条英文指令,涵盖了数学、物理、生物、化学和法律等领域的复杂推理挑战,深入探讨了更深层次的知识。这些问题包括选择题、简答题和开放式回答形式,采用了一种结合代码、人工评估和模型分析的混合评估方法。数据集的发起者引入了一种基于规则的评估方法,使GPT-4能够对中间推理步骤进行打分。

The ARB dataset encompasses 1207 English instructions that cover complex reasoning challenges across disciplines such as mathematics, physics, biology, chemistry, and law, delving into deeper levels of knowledge. The questions include multiple-choice, short answer, and open-ended response formats, employing a mixed evaluation method that integrates coding, human assessment, and model analysis. The initiators of the dataset introduced a rule-based evaluation approach to enable GPT-4 to score intermediate reasoning steps.
提供机构:
DuckAI et al.
创建时间:
2023-07-01
原始信息汇总

Advanced Reasoning Benchmark (ARB) 数据集概述

基本信息

  • 名称: Advanced Reasoning Benchmark (ARB)
  • 维护机构: DuckAI
  • 合作机构: 乔治亚理工学院、苏黎世联邦理工学院、Nomos AI、斯坦福大学法律信息学中心、Mila - Quebec AI Institute
  • 许可证: MIT
  • 相关论文: arXiv:2307.13692

数据集简介

ARB是一个新颖的基准测试数据集,由高级推理问题组成,旨在评估大型语言模型(LLMs)在文本理解和专业领域推理方面的能力。该数据集比现有基准更具挑战性,包含测试数学、物理、生物、化学和法律领域深层知识的问题。

API访问

  • 端点URL: https://advanced-reasoning-benchmark.netlify.app/api/
  • 完整REST API文档: API文档
AI搜集汇总
数据集介绍
main_image_url
构建方式
ARB数据集由DuckAI与乔治亚理工学院、苏黎世联邦理工学院、Nomos AI、斯坦福大学法律信息学中心以及Mila - 魁北克人工智能研究所合作构建。该数据集专注于高级推理问题,旨在评估大型语言模型在文本理解和专家领域推理方面的能力。构建过程中,团队精心设计了涵盖数学、物理、生物、化学和法律等多个学科领域的问题,确保其复杂性和深度远超现有基准测试。
特点
ARB数据集的特点在于其问题的多样性和深度。它不仅涵盖了广泛的学科领域,还特别注重测试模型在复杂推理任务中的表现。每个问题都经过精心设计,以挑战模型在理解、分析和推理方面的极限。此外,数据集还提供了详细的API文档,便于用户快速上手并集成到现有系统中。
使用方法
ARB数据集的使用方法主要通过其提供的REST API进行。用户可以通过访问指定的API端点,获取数据集中的问题和相关资源。API文档详细介绍了如何调用接口、获取数据以及进行模型评估。通过这种方式,研究人员和开发者可以轻松地将ARB数据集应用于模型训练和性能评估,从而推动自然语言处理领域的进一步发展。
背景与挑战
背景概述
ARB(Advanced Reasoning Benchmark)数据集由DuckAI与乔治亚理工学院、苏黎世联邦理工学院、Nomos AI、斯坦福大学法律信息学中心以及Mila - 魁北克人工智能研究所合作开发,于2023年发布。该数据集旨在评估大型语言模型(LLMs)在文本理解和专家领域推理方面的能力,涵盖了数学、物理、生物、化学和法律等多个学科的高级推理问题。相较于以往的基准测试,ARB提供了更具挑战性的问题,旨在推动模型在复杂知识领域的表现。该数据集的发布为自然语言处理和人工智能领域的研究提供了新的评估工具,促进了模型在跨学科推理能力上的进步。
当前挑战
ARB数据集的核心挑战在于其问题设计的复杂性和多样性。首先,数据集中的问题要求模型具备跨学科的深度知识,尤其是在数学、物理、生物、化学和法律等领域的推理能力,这对模型的泛化能力和知识整合提出了更高要求。其次,构建过程中需要确保问题的科学性和准确性,涉及多学科专家的协作与验证,增加了数据集的开发难度。此外,如何设计能够有效区分模型性能的评估标准,也是该数据集面临的重要挑战。这些挑战不仅推动了模型在复杂推理任务上的进步,也为未来基准测试的设计提供了新的思路。
常用场景
经典使用场景
ARB数据集专为评估大型语言模型(LLMs)在文本理解和专业领域推理能力而设计,广泛应用于自然语言处理领域的研究。其经典使用场景包括对模型在数学、物理、生物、化学和法律等领域的深度知识进行测试,通过复杂的问题设置,挑战模型的高级推理能力。
解决学术问题
ARB数据集解决了当前LLMs在复杂推理任务中表现不足的问题,尤其是在跨学科知识的综合应用方面。通过提供涵盖多个学科的高难度问题,ARB为研究者提供了一个标准化的评估工具,帮助识别模型在推理和知识整合中的短板,推动了模型能力的进一步提升。
衍生相关工作
ARB数据集的发布催生了一系列相关研究,特别是在多模态推理和跨领域知识融合方面。许多研究团队基于ARB开发了新的模型训练方法,如结合图神经网络和知识图谱的推理框架,进一步推动了LLMs在复杂任务中的应用。这些衍生工作不仅扩展了ARB的影响力,也为人工智能领域的技术创新提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

cricket_data

该数据集包含了多种板球比赛的数据,包括每场比赛的详细信息,如比赛日期、地点、参赛队伍、比赛结果等。数据以文件形式存储,每个文件对应不同的比赛信息,如投球数据、比赛日期、比赛信息、比赛详情、元数据、比赛结果、最有价值球员、超级替补、参赛队伍、抛硬币结果和裁判员信息等。

github 收录

Autism-Datasets

收集了一些关于自闭症的数据集。

github 收录