InterFeedBack-Human

Hugging Face2025-04-19 更新2025-04-20 收录

下载链接：

https://huggingface.co/datasets/hhenryz/InterFeedBack-Human

下载链接

链接失效反馈

官方服务：

资源简介：

InterFeedback-Human数据集旨在评估大型多模态模型在接收到人类反馈时进行交互推理的能力。该数据集包含120个实例，分为训练集。每个实例包括任务ID、问题版本、问题类别、问题（可能包含图像）、四个候选答案和一个正确答案。问题类型包括视觉、数学逻辑、编码、MMMU-Pro和MathVerse。数据集适用于交互式评估和模型微调，以便在反馈循环下提高多步骤推理能力。

创建时间：

2025-04-17

搜集汇总

数据集介绍

构建方式

InterFeedBack-Human数据集通过精心设计的任务选择与验证流程构建而成，涵盖视觉逻辑、数学逻辑、编程任务等五大类别。研究团队从公开的视觉逻辑推理题库及MMMU-Pro、MathVerse等权威基准中筛选任务，并补充自主设计的空间推理与算法谜题。每个任务均经过两名独立标注者的交叉验证，确保问题、选项与标准答案的准确性，标注者间一致性系数κ>0.92。数据集最终形成120个平衡配置的样本，每个样本包含唯一任务标识、多模态输入及四选一标准化答案。

使用方法

该数据集适用于大模型交互式推理能力的基准测试，研究者可通过增量提示模拟人类反馈场景，测量模型答案的迭代优化轨迹。使用时需加载包含图像-文本对的样本，依据problem_category字段选择对应评估策略。对于视觉类任务，需结合图像特征与文本描述进行多模态联合推理；数学与编程类则侧重符号逻辑分析。评估指标建议采用准确率与反馈响应灵敏度，注意不同任务类型的难度差异可能影响跨类别比较。数据集兼容HuggingFace标准接口，可直接通过load_dataset方法调用。

背景与挑战

背景概述

InterFeedBack-Human数据集由新加坡国立大学Show Lab的Henry Hengyuan Zhao等研究人员于2025年创建，旨在评估大型多模态模型（LMMs）在人类反馈条件下的交互式推理能力。该数据集融合了视觉逻辑、数学逻辑、编程任务及专业级多模态推理等五大类共120个多选题任务，其设计灵感源自视觉逻辑推理测试范式。作为首个系统研究LMMs交互智能的基准数据集，它不仅整合了MMMU-Pro和MathVerse等权威基准的子集，还创新性地加入了研究团队自主设计的空间推理与算法谜题，为探索人机协作式推理机制提供了标准化测试平台。

当前挑战

该数据集面临的核心领域挑战在于如何精准量化LMMs通过迭代反馈实现答案优化的动态能力，这需要解决多模态信息融合、反馈信号的有效编码以及跨领域知识迁移等复杂问题。在构建过程中，研究团队需平衡视觉逻辑任务（占比66%）与其他类别的代表性，同时确保120个任务在难度层级和交互深度上的可比性。此外，基于中国考试风格设计的逻辑问题可能带来文化偏差，而严格的四项选择题形式也限制了模型开放式推理能力的评估维度。

常用场景

经典使用场景

在人工智能领域，InterFeedBack-Human数据集被广泛用于评估大型多模态模型（LMMs）的交互式推理能力。该数据集通过模拟人类反馈的增量提示，为研究者提供了一个标准化的测试平台，以衡量模型在视觉逻辑、数学逻辑、编程任务等多样化场景中的表现。其精心设计的任务结构和多类别平衡使得该数据集成为验证模型自我改进能力的理想工具。

解决学术问题

InterFeedBack-Human数据集有效解决了多模态模型在交互式学习中的关键挑战，如反馈整合与多步推理。通过涵盖视觉模式识别、复杂数学问题求解及代码调试等任务，该数据集为研究社区提供了量化模型在动态交互环境中表现的方法，填补了现有基准测试在持续性学习评估方面的空白，推动了交互式人工智能的发展。

实际应用

该数据集的实际价值体现在智能教育系统和辅助决策工具的研发中。教育科技公司可利用其构建自适应学习平台，通过模拟教师反馈机制优化AI辅导系统的交互能力。在工业领域，基于该数据集训练的模型能够协助工程师进行可视化故障诊断或复杂设备的维护决策，显著提升人机协作效率。

数据集最近研究