FIRE

Name: FIRE
Creator: 北京理工大学, 北京通用人工智能研究所, 北京大学, 莫纳什大学, 清华大学
Published: 2024-07-16 17:00:45
License: 暂无描述

arXiv2024-07-16 更新2024-07-23 收录

下载链接：

https://mm-fire.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

FIRE数据集由北京理工大学、北京通用人工智能研究所等机构创建，包含1.1M条高质量的多轮反馈-细化对话，源自27个源数据集，覆盖视觉问答、图像描述、OCR推理等多个任务。数据集通过GPT-4V模拟学生和教师的对话生成，经过筛选确保对话质量。FIRE数据集的应用领域广泛，旨在通过用户反馈提升视觉语言模型在多任务中的响应精度和效率。

The FIRE dataset was created by institutions including Beijing Institute of Technology and Beijing General Artificial Intelligence Research Institute. It contains 1.1 million high-quality multi-turn feedback-refinement dialogues derived from 27 source datasets, covering multiple tasks such as visual question answering, image captioning and OCR reasoning. The dataset is generated by simulating student-teacher conversations via GPT-4V, and has been screened to ensure dialogue quality. The FIRE dataset has a wide range of application scenarios, aiming to improve the response accuracy and efficiency of visual-language models across diverse tasks through user feedback.

提供机构：

北京理工大学, 北京通用人工智能研究所, 北京大学, 莫纳什大学, 清华大学

创建时间：

2024-07-16

搜集汇总

数据集介绍

构建方式

FIRE数据集的构建采用了两阶段的数据收集方法。首先，从27个源数据集中随机抽取约10万个图像-指令-响应三元组，使用GPT-4V模拟学生与教师之间的对话，生成学生回答问题并教师提供反馈的对话。过滤掉低质量的对话后，得到10万个高质量的反馈改进对话，命名为FIRE-100K。其次，使用FIRE-100K对两个LLaVA-NeXT模型进行微调，分别作为学生和教师模型。使用约100万个数据点模拟学生和教师模型之间的对话，生成名为FIRE-1M的对话。FIRE数据集最终由FIRE-100K和FIRE-1M两部分组成，包含110万个反馈改进对话。

使用方法

FIRE数据集可用于训练和评估视觉语言模型（VLMs）的反馈改进能力。使用FIRE-100K和FIRE-1M对VLMs进行微调，可以提高模型在多种任务上的反馈改进能力。FIRE-Bench基准测试可用于评估模型在固定对话和自由对话两种设置下的反馈改进能力，并通过平均回合数、平均对话改进、平均回合改进和改进比例等指标进行量化评估。

背景与挑战

背景概述

FIRE 数据集是一个用于评估多模态模型反馈整合和精炼能力的数据库。该数据集由来自 27 个源数据集的 1.1M 多轮对话组成，旨在提高视觉语言模型 (VLM) 在各种任务中的反馈精炼能力。FIRE 数据集的创建由北京理工大学、北京人工智能研究院、北京大学、莫纳什大学和清华大学的研究人员共同完成。该数据集的核心研究问题是如何使 VLMs 能够根据用户的反馈自发地改进其响应，从而提高用户与视觉助手之间的交互效率。FIRE 数据集对相关领域的影响力体现在它提供了一个全面的评估平台，用于分析 VLMs 的反馈精炼能力，并推动了对 VLMs 反馈精炼能力未来探索的研究。

当前挑战

FIRE 数据集面临的挑战包括：1) 所解决的领域问题的挑战：FIRE 数据集旨在解决 VLMs 在多模态任务中缺乏反馈精炼能力的问题，使模型能够根据用户反馈改进其响应。2) 构建过程中的挑战：FIRE 数据集的构建需要收集和生成大量的反馈-精炼对话，这涉及到数据收集、数据清洗、模型训练和评估等多个环节，需要克服数据多样性、数据质量和计算资源等方面的挑战。

常用场景

经典使用场景

FIRE数据集主要用于评估和提升视觉语言模型（VLMs）的反馈整合与细化能力。通过模拟学生和教师之间的多轮对话，数据集提供了一系列图像、指令、初始响应和反馈，使VLMs能够根据用户反馈不断改进其响应。FIRE数据集包括从27个源数据集中提取的110万条多轮反馈细化对话，涵盖了视觉问答、图像描述、OCR推理、文档理解、数学推理和图表分析等广泛任务。这些对话被用于训练和评估VLMs，以提高其响应的准确性和细节性，从而增强用户与视觉助手之间的交互效率和平滑性。

解决学术问题

FIRE数据集解决了视觉语言模型在执行任务时可能产生的输出不理想的问题。这些不理想输出可能由于模型忽略了图像中的重要细节或误解了指令。FIRE数据集通过提供用户反馈，使VLMs能够自发地改进其响应，从而提高了模型在多种任务中的性能。此外，FIRE-Bench基准测试提供了全面的评估平台，用于分析VLMs在固定对话和自由对话设置中的反馈细化能力，从而促进了VLMs反馈整合能力的研究。

实际应用

FIRE数据集的实际应用场景包括但不限于智能客服、教育辅助、图像识别和文档分析等领域。在智能客服中，FIRE数据集可以帮助VLMs更好地理解用户问题并提供更准确的答案。在教育辅助中，FIRE数据集可以帮助VLMs提供更详细和准确的解释，以帮助学生更好地理解课程内容。在图像识别和文档分析中，FIRE数据集可以帮助VLMs提高识别和理解的准确性，从而提高工作效率。此外，FIRE数据集还可以用于开发更智能的人机交互系统，以提供更自然和流畅的交互体验。

数据集最近研究