XLOGOMINIPROG
收藏arXiv2024-06-17 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.11334v1
下载链接
链接失效反馈官方服务:
资源简介:
XLOGOMINIPROG是由马克斯·普朗克软件系统研究所和特里尔大学合作创建的视觉编程领域程序合成基准数据集。该数据集包含85个来自XLogoOnline平台Mini级别的真实世界任务,每个任务都要求结合空间规划、基础编程和逻辑推理等多种技能。数据集的创建过程涉及使用任务合成技术自动生成高质量任务,并通过模拟器反馈设计训练数据分布的课程。XLOGOMINIPROG旨在评估大型模型在需要多种技能的视觉编程任务上的表现,为未来的程序合成研究提供了一个独特的挑战和测试平台。
XLOGOMINIPROG is a program synthesis benchmark dataset in the domain of visual programming, co-created by the Max Planck Institute for Software Systems and the University of Trier. This dataset contains 85 real-world tasks at the Mini level from the XLogoOnline platform, each of which requires combining multiple skills including spatial planning, basic programming, and logical reasoning. The dataset was developed using task synthesis techniques to automatically generate high-quality tasks, and leveraged simulator feedback to design the curriculum for the training data distribution. XLOGOMINIPROG aims to evaluate the performance of large models on visual programming tasks that demand multiple skills, providing a unique challenge and testbed for future program synthesis research.
提供机构:
马克斯·普朗克软件系统研究所
创建时间:
2024-06-17
搜集汇总
数据集介绍

构建方式
XLOGOMINIPROG数据集的构建基于XLogoOnline可视化编程环境中的Mini级别任务,共包含85个真实世界任务。每个任务都要求结合空间规划、基础编程和逻辑推理等多种技能。数据集的构建过程包括从XLogoOnline平台中筛选任务,并为每个任务手动编写解决方案代码。为确保数据集的多样性和挑战性,研究人员还通过任务合成技术生成了超过80,000个合成任务,这些任务在网格大小和代码长度上更具挑战性,从而为模型训练提供了丰富的数据支持。
特点
XLOGOMINIPROG数据集的特点在于其任务的多技能融合性。每个任务不仅要求基础的编程能力,还需要空间推理、逻辑思维和数学计算等技能的协同运用。例如,任务可能涉及在网格中导航以收集特定数量的物品,或在不触碰特定颜色的情况下完成绘图。数据集还涵盖了多种代码约束条件,如最大命令数、精确命令数等,进一步增加了任务的复杂性。这种多维度、多技能的设计使得该数据集成为评估模型综合能力的理想测试平台。
使用方法
XLOGOMINIPROG数据集的使用方法主要包括任务描述的自然语言转换和代码生成的评估。研究人员首先将任务从JSON格式转换为自然语言描述,并提供给模型生成Python风格的代码。生成的代码随后通过模拟器执行,以验证其是否满足任务目标和约束条件。评估指标包括代码格式的正确性、运行时的无崩溃性以及任务完成成功率。此外,数据集还可用于模型的微调,通过合成任务的大规模训练和模拟器驱动的反馈机制,显著提升模型在可视化编程任务中的表现。
背景与挑战
背景概述
XLOGOMINIPROG数据集由MPI-SWS和特里尔大学的研究团队于2024年创建,旨在评估大型语言和多模态模型在视觉编程环境中的程序合成能力。该数据集基于XLogoOnline平台的Mini级别,包含85个真实任务,每个任务需要结合空间规划、基础编程和逻辑推理等多种技能。研究团队发现,即使是GPT-4V和Llama3-70B等先进模型,在这些任务上的成功率也仅为20%和2.35%,揭示了当前模型在复杂多技能任务中的局限性。该数据集的发布为视觉编程领域的程序合成研究提供了重要的基准测试工具。
当前挑战
XLOGOMINIPROG数据集面临的挑战主要体现在两个方面:领域问题方面,视觉编程任务需要模型同时具备空间推理、数学计算和编程逻辑等多项能力,这种多技能组合对现有模型提出了极高要求;构建过程方面,研究团队需要解决真实任务采集的多样性问题,确保任务覆盖不同难度级别和技能维度,同时还要设计有效的评估指标来准确衡量模型性能。此外,创建包含8万多个任务的合成训练数据集也面临质量控制和多样性平衡的技术挑战。
常用场景
经典使用场景
XLOGOMINIPROG数据集在视觉编程领域的经典使用场景主要体现在评估大型语言模型和多模态模型在综合技能任务上的表现。该数据集通过XLogoOnline平台中的Mini级任务,要求模型结合空间规划、基础编程和逻辑推理等多种技能完成任务。例如,模型需要指导虚拟乌龟在网格中移动以完成特定目标,如收集特定颜色的形状或绘制图案。这些任务不仅测试了模型的编程能力,还考察了其在复杂环境中的综合推理能力。
解决学术问题
XLOGOMINIPROG数据集解决了当前大型模型在综合技能任务上表现不佳的学术研究问题。通过提供85个真实世界的视觉编程任务,该数据集填补了现有基准测试的空白,这些测试通常只关注单一技能。数据集的引入使得研究者能够系统地评估模型在空间推理、逻辑推理和数学问题解决等多维技能上的表现。此外,数据集还揭示了当前先进模型(如GPT-4V和Llama3-70B)在综合任务上的局限性,为后续研究提供了改进方向。
衍生相关工作
XLOGOMINIPROG数据集衍生了一系列相关经典工作,特别是在视觉编程和程序合成领域。基于该数据集,研究者开发了基于合成数据的微调流程,显著提升了模型性能。例如,通过大规模合成数据集(包含80,000多个任务)和模拟器驱动的反馈机制,微调后的Llama3-8B模型在任务成功率上大幅超越GPT-4V。这些工作不仅推动了视觉编程领域的研究,也为多模态模型的综合技能评估提供了新的方法论。
以上内容由遇见数据集搜集并总结生成



