NTSEBENCH

Name: NTSEBENCH
Creator: 印度理工学院古瓦哈提分校, 犹他大学, 宾夕法尼亚大学
Published: 2024-07-15 09:21:56
License: 暂无描述

arXiv2024-07-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.10380v1

下载链接

链接失效反馈

官方服务：

资源简介：

NTSEBENCH是由印度理工学院古瓦哈提分校、犹他大学和宾夕法尼亚大学联合创建的一个用于评估大型深度学习模型在复杂文本、视觉和多模态认知推理能力的数据集。该数据集包含2728个多选题，涉及26个不同的问题类别，主要来源于印度全国性的NTSE考试。NTSEBENCH旨在测试模型在不需要特定领域知识或死记硬背的情况下，解决问题的固有能力。数据集的创建过程包括从过往的NTSE试卷中提取问题，并通过OCR技术和人工校对进行数据清洗和处理。NTSEBENCH主要应用于评估和提升模型在认知推理任务中的表现，特别是在需要抽象和空间推理的视觉谜题解决方面。

NTSEBENCH is a dataset jointly created by the Indian Institute of Technology Guwahati, the University of Utah, and the University of Pennsylvania, designed to evaluate the capabilities of large deep learning models in complex textual, visual, and multimodal cognitive reasoning. It contains 2,728 multiple-choice questions spanning 26 distinct question categories, primarily sourced from India's national NTSE examination. NTSEBENCH aims to test a model's intrinsic problem-solving abilities without requiring specialized domain knowledge or rote memorization. The dataset construction process involves extracting questions from past NTSE examination papers, followed by data cleaning and processing using OCR technology and manual proofreading. NTSEBENCH is mainly applied to evaluate and enhance a model's performance on cognitive reasoning tasks, particularly in visual puzzle-solving that requires abstract and spatial reasoning.

提供机构：

印度理工学院古瓦哈提分校, 犹他大学, 宾夕法尼亚大学

创建时间：

2024-07-15

搜集汇总

数据集介绍

构建方式

NTSEBENCH数据集的构建主要依托于印度全国范围内举行的全国人才搜索考试（NTSE）的历年试卷。该考试旨在评估学生的分析能力，包括心智能力测试（MAT）和学业能力测试（SAT）。NTSEBENCH数据集聚焦于认知推理能力，特别是MAT部分，该部分涵盖了一系列需要文本和视觉推理的问题。数据集的构建涉及从公开的NTSE试卷中提取问题，并利用OCR技术将PDF文档转换为Word文档，然后手动校对以纠正错误。接着，使用DOCLATEX库将所有方程转换为LaTeX表达式，并通过PYMUPDF库提取文本和图像数据。最终，数据集包含了2,728个多项选择题，涉及4,642张图像，覆盖了26个不同的类别，这些类别均是从NTSE考试中挑选出来的，旨在测试学生的视觉和文本通用能力，而不仅仅是死记硬背的知识。

特点

NTSEBENCH数据集的独特之处在于其专注于评估大型深度学习模型（如LLMs和VLMs）的认知推理能力。数据集包含了多种问题类型，如系列、日历和时钟、方向感、类比等，这些问题可以以文本、视觉或两者结合（多模态）的形式呈现。数据集的设计考虑到了不同模态（文本和图像）的处理，为比较开源和专有模型提供了四种不同的建模策略。此外，数据集还提供了多种问题-选项-解决方案的组合，涵盖了八种不同的模态类型。这些特点使得NTSEBENCH成为评估模型在复杂视觉、文本和多模态认知推理能力方面的理想基准。

使用方法

NTSEBENCH数据集的使用涉及多种建模策略，以适应不同模态的问题、选项和解决方案。对于纯文本问题，可以使用标准文本问答模型（如GPT-3.5-Turbo或Llama3-70b）。对于仅包含图像的问题，可以将所有问题和选项呈现为单个图像，并利用模型的OCR能力进行推理。对于包含文本和多个图像的问题，可以采用交织模型，将相关文本和视觉元素紧密排列。此外，还可以使用标准视觉问答模型，将所有问题和选项图像缝合成一个图像，并伴随文本提示。为了公平比较，数据集还支持零样本和少样本的提示策略，使用链式思维（COT）提示以获得更好的结果。使用数据集时，可以根据模型的特性和任务需求选择合适的建模和提示策略，以评估模型在认知推理任务上的性能。

背景与挑战

背景概述

在认知推理和问题解决能力评估领域，智力测试一直是评估个体智力的重要手段。随着大型语言模型（LLM）和视觉语言模型（VLM）的不断发展，它们在许多常见推理任务中取得了与人类相当的成就。然而，对于更复杂的推理任务，例如需要认知理解的谜题、系列和类比，这些模型仍然面临挑战。为了解决这一研究空白，Pandya等人于2024年提出了一个新的数据集NTSEBENCH，旨在评估大型模型在认知多模态推理和问题解决技能方面的能力。该数据集由来自印度全国范围内进行的NTSE考试中的2728个多项选择题组成，涵盖了26个类别，包括视觉和文本通用能力问题，这些问题不依赖于死记硬背。研究人员使用最先进的LLM和VLM在数据集上建立了基线，并提出了四种不同的建模策略来处理数据集中的不同模态（文本和图像）。

当前挑战

NTSEBENCH数据集在评估大型深度学习模型（LLM和VLM）的认知推理能力方面面临多个挑战。首先，LLM和VLM在处理复杂的视觉推理任务时表现不佳，尤其是在多模态问题上。其次，与开源模型相比，专有模型表现更优，这表明专有模型在特定任务上的微调和优化是必要的。此外，NTSEBENCH中的多模态问题对模型提出了更高的要求，因为它们需要模型在视觉和文本信息之间进行更深入的推理。最后，现有的视觉和多模态推理数据集大多专注于特定领域，而NTSEBENCH则专注于评估不依赖于特定领域知识或死记硬背的认知推理能力。因此，NTSEBENCH为研究和开发更先进的认知推理模型提供了一个有价值的基准。

常用场景

经典使用场景

NTSEBENCH数据集主要用于评估大型语言模型（LLMs）和视觉语言模型（VLMs）在认知推理和问题解决方面的能力。该数据集包含从印度全国性的人才选拔考试（NTSE）中抽取的2,728个多项选择题，涉及26个不同的问题类别，包括系列、日历和时钟、方向感、类比等。这些题目既可以以文本形式呈现，也可以以视觉形式呈现，甚至可以同时包含文本和视觉元素（多模态）。NTSEBENCH旨在评估模型在没有特定领域知识或死记硬背的情况下，解决复杂视觉、文本和多模态认知推理问题的能力。

解决学术问题

NTSEBENCH数据集解决了当前大型模型在复杂认知推理任务上的局限性问题。尽管LLMs和VLMs在常识推理任务中取得了显著进展，但在需要认知理解的任务上，如常识数值和科学推理、谜题和类比等，它们的表现仍然不尽如人意。NTSEBENCH提供了一个专注于评估模型认知推理能力的基准，这对于推动LLMs和VLMs在认知推理方面的发展具有重要意义。

衍生相关工作

NTSEBENCH数据集的发布促进了多个相关领域的研究。例如，研究人员可以利用NTSEBENCH来评估和比较不同LLMs和VLMs在认知推理方面的性能，以及探索新的模型架构和训练方法。此外，NTSEBENCH还可以用于开发新的多模态推理任务和评估指标，以推动人工智能技术在认知推理领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集