five

KOR-Bench

收藏
arXiv2024-10-09 更新2024-10-11 收录
下载链接:
https://kor-bench.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
KOR-Bench是由多模态艺术投影研究社区创建的一个知识正交推理基准数据集,旨在评估语言模型在分布外场景中的推理能力。数据集包含五个任务类别:操作、逻辑、密码、谜题和反事实推理,每个类别包含25个手动定义的规则,每个规则有10个问题实例,总计250个问题。数据集的设计过程确保规则与模型预训练数据中的领域特定知识正交,强调模型在新规则驱动问题上的应用能力。KOR-Bench主要用于测试模型在处理复杂、动态环境中的推理和问题解决能力,旨在减少对预训练知识的依赖,更准确地评估模型的内在推理和规划能力。

KOR-Bench is a knowledge-orthogonal reasoning benchmark dataset created by the multimodal art projection research community, designed to evaluate the reasoning capabilities of language models in out-of-distribution scenarios. The dataset comprises five task categories: manipulation, logic, cryptography, puzzles, and counterfactual reasoning. Each category contains 25 manually formulated rules, with 10 question instances per rule, resulting in a total of 250 questions. The dataset’s design ensures that its rules are orthogonal to the domain-specific knowledge present in the model’s pre-training data, emphasizing the model’s ability to solve novel rule-driven problems. KOR-Bench is primarily used to test a model’s reasoning and problem-solving capabilities in complex, dynamic environments, aiming to reduce reliance on pre-trained knowledge and more accurately evaluate the model’s inherent reasoning and planning abilities.
提供机构:
多模态艺术投影研究社区
创建时间:
2024-10-09
搜集汇总
数据集介绍
main_image_url
构建方式
KOR-Bench 数据集通过引入知识正交推理(Knowledge-Orthogonal Reasoning, KOR)的概念构建,旨在最小化领域特定知识对模型推理能力评估的影响。该数据集包含五个任务类别:操作、逻辑、密码、谜题和反事实推理。每个类别包含25个手动定义的规则,这些规则经过适当修改,确保它们不出现在常见的预训练数据中,从而保持与领域特定知识的正交性。每个规则伴随10个问题实例,用于评估基于该规则的推理能力。
特点
KOR-Bench 数据集的特点在于其强调模型在新规则描述下解决新颖规则驱动问题的有效性,而非依赖数据检索或信息记忆。数据集设计了一系列任务,通过引入新元素和规则来挑战和展示模型的推理能力。这些任务分为五个类别,每个类别基于以下新元素之一:新符号、新概念、新执行规则、新问题解决框架和新故事上下文设置。
使用方法
KOR-Bench 数据集的使用方法包括评估模型在阅读理解、即时学习、知识迁移、逻辑推理和问题解决方面的能力,同时减少对现有知识库的依赖。数据集的构建方式确保了规则与模型在预训练期间接触到的领域特定知识无关,从而更准确地测试模型的内在推理和规划能力。未来,数据集计划增加数据集规模,探索参数化规则,深化推理层次,改进推理过程的评估,并扩展为多模态版本。
背景与挑战
背景概述
KOR-Bench数据集由Multimodal Art Projection Research Community、ByteDance.Inc、01.AI等机构的研究人员于2024年创建。该数据集的核心研究问题是如何在分布外场景中更准确地评估模型的推理能力,通过最小化领域特定知识的影响,提出了一种称为“知识正交推理”(KOR)的概念。KOR-Bench涵盖了五个任务类别:操作、逻辑、密码、谜题和反事实推理,旨在评估模型在新规则描述下解决新颖规则驱动问题的有效性。该数据集的引入对相关领域产生了深远影响,特别是对于提升模型在复杂任务中的推理能力和促进该领域的进一步研究。
当前挑战
KOR-Bench数据集面临的挑战主要集中在两个方面:一是解决领域问题中的挑战,例如图像分类中的图像识别问题;二是在构建过程中遇到的挑战,如如何确保数据集的多样性和覆盖面,以及如何有效地标注和验证数据。此外,KOR-Bench还需要解决模型在新规则和框架下处理分布外任务的能力,以及生成符合特定规则或设置的结果的能力。这些挑战要求数据集设计者不仅要有深厚的领域知识,还需要具备创新的数据处理和模型评估方法。
常用场景
经典使用场景
KOR-Bench 数据集的经典使用场景在于评估语言模型在知识正交推理任务中的表现。该数据集通过设计五类任务(操作、逻辑、密码、谜题和反事实推理),测试模型在面对新定义的规则和问题时的推理能力。这些任务要求模型在不依赖预训练知识的情况下,应用新规则解决新颖的规则驱动问题,从而准确评估模型的内在推理和规划能力。
解决学术问题
KOR-Bench 数据集解决了当前评估基准在准确测量模型推理能力方面的常见问题。传统评估方法往往依赖于模型对预训练数据的记忆,而非其遵循规则或推理的能力。KOR-Bench 通过知识正交设计,确保规则独立于模型预训练时接触的领域特定知识,从而更全面和公平地评估模型在理解、遵循新规则和高效解决问题方面的能力。这为提升模型推理能力提供了宝贵的资源,并促进了该领域的进一步研究。
衍生相关工作
KOR-Bench 数据集的提出催生了一系列相关研究和工作。例如,研究人员基于该数据集开发了新的评估方法和工具,以更细致地分析模型在不同推理任务中的表现。此外,KOR-Bench 还激发了对模型推理过程的可解释性和透明性的研究,推动了规则遵循和推理能力的可视化技术的发展。未来,该数据集有望扩展到多模态版本,进一步探索视觉和语言结合的推理任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作