LLMShot数据集

Name: LLMShot数据集
Creator: 比克内特大学
Published: 2025-07-14 16:47:19
License: 暂无描述

arXiv2025-07-14 更新2025-07-16 收录

下载链接：

https://zenodo.org/records/15876540

下载链接

链接失效反馈

官方服务：

资源简介：

LLMShot数据集由比克内特大学创建，旨在解决快照测试维护中的挑战。该数据集包含17个测试用例，每个用例都有真实的快照差异，这些差异代表真实的开发工作流程。数据集使用了一个功能丰富的iOS应用程序，具有可配置的功能标志，以创建产生真实快照差异的场景。数据集的每个记录包含参考图像、失败图像、像素级差异图像和元数据。LLMShot框架利用视觉大型语言模型来分析和分类UI变化，区分真正的回归和故意的设计修改。该数据集可用于评估LLMShot框架的性能，并为开发人员提供对UI变化的语义理解，从而减少手动审查工作量。

The LLMShot Dataset was developed by Bicknell University to address the challenges of snapshot test maintenance. It includes 17 test cases, each containing real snapshot discrepancies that represent real-world development workflows. The dataset uses a feature-rich iOS application with configurable feature flags to create scenarios that generate authentic snapshot differences. Each record in the dataset comprises reference images, failed images, pixel-level difference images, and metadata. The LLMShot framework utilizes visual large language models to analyze and categorize UI changes, distinguishing between true regressions and intentional design modifications. This dataset can be used to evaluate the performance of the LLMShot framework, and provides developers with semantic understanding of UI changes, thereby reducing manual review workload.

提供机构：

比克内特大学

创建时间：

2025-07-14

搜集汇总

数据集介绍

构建方式

LLMShot数据集的构建采用了特征丰富的iOS应用程序，通过配置可调节的功能标志来模拟真实的开发场景。这种方法能够产生具有代表性的快照差异，涵盖了实际开发流程中常见的UI变化。数据集中的每个记录包含基线快照、修改后的快照、视觉差异图以及详细的元数据，确保了数据的全面性和实用性。通过这种方式，数据集能够有效地支持对快照测试失败的自动化分析研究。

使用方法

LLMShot数据集的使用方法主要包括利用视觉语言模型对快照测试失败进行语义分析。研究人员可以通过提供参考图像、失败图像和差异图像，结合预定义的分类类别，让模型生成结构化的分析输出。这些输出包括变化分类、量化评分、受影响的UI组件列表以及自然语言解释。数据集的使用不仅限于分类任务，还可用于评估模型的视觉推理能力和对开发场景的适应性，为快照测试的自动化研究提供了有力支持。

背景与挑战

背景概述

LLMShot数据集由Bilkent大学的研究团队于2025年创建，旨在解决用户界面（UI）开发中快照测试维护成本高昂的问题。快照测试作为一种关键的UI验证技术，在现代软件开发中被广泛采用，但其面临的主要挑战是无法区分真实的回归错误与预期的设计变更，导致大量手动检查工作。该数据集基于一个功能丰富的iOS应用程序构建，通过配置特征标志模拟真实的开发场景，生成了具有层次化标注的真实快照差异案例。LLMShot数据集的推出填补了快照测试领域缺乏语义理解数据集的空白，为开发智能UI测试范式提供了重要基础。

当前挑战

LLMShot数据集主要应对两大挑战：在领域问题层面，传统快照测试无法自动区分UI变更的语义含义，导致开发人员需要手动检查每个测试失败案例；在构建过程层面，数据集需要准确模拟真实开发场景中的各类UI变更，包括视觉调整、内容更新和布局修改等。具体挑战包括：1) 如何定义全面且互斥的UI变更分类体系；2) 如何通过特征标志精确控制应用程序状态以生成具有代表性的快照差异；3) 如何建立可靠的标注标准来确保数据质量。此外，基于大型语言模型的自动分析面临可控视觉推理的局限性，特别是在选择性忽略机制上的表现仍有待提升。

常用场景

经典使用场景

在软件开发领域，LLMShot数据集为UI快照测试的自动化分析提供了关键支持。该数据集通过模拟真实开发环境中的UI变更场景，如颜色调整、布局修改和内容更新，为研究者提供了丰富的测试用例。其核心价值在于能够区分预期变更与真实缺陷，解决了传统快照测试中大量误报的问题。数据集构建采用功能丰富的iOS应用程序，通过配置开关模拟不同开发场景，确保测试差异反映真实工作流程。

解决学术问题

LLMShot数据集针对快照测试领域两大核心问题提供了解决方案：一是缺乏对UI变更的语义理解，导致开发者需要手动区分预期变更与真实缺陷；二是传统方法产生大量需要人工核实的误报。通过引入基于视觉的大语言模型分析框架，该数据集实现了对UI变更的层次化分类，准确率超过84%，显著降低了人工审查成本。这一突破为智能UI测试范式的发展奠定了基础，推动了软件测试自动化研究的进步。

实际应用

在实际开发环境中，LLMShot数据集的应用显著提升了持续集成流程的效率。科技企业可利用该数据集训练的模型自动分析快照测试失败案例，快速识别布局偏移、内容错误等关键问题。特别是在敏捷开发场景中，它能有效应对频繁的UI迭代，将原本需要数小时的人工审查过程缩短至分钟级。数据集支持的Gemma3模型已证明在移动应用测试中具有部署可行性，为开发团队提供了可靠的自动化测试解决方案。

数据集最近研究