OmniGIRL

Name: OmniGIRL
Creator: 中山大学
Published: 2025-05-08 01:51:10
License: 暂无描述

arXiv2025-05-08 更新2025-05-09 收录

下载链接：

https://github.com/guolh8/OmniGIRL

下载链接

链接失效反馈

官方服务：

资源简介：

OmniGIRL是一个多语言、多模态和多领域的GitHub问题解决基准数据集，包含来自四种编程语言（Python、JavaScript、TypeScript和Java）和八个不同领域的959个任务实例。该数据集不仅包含了文本信息，还包括了图像等多模态信息，旨在评估大型语言模型在解决GitHub问题方面的能力。数据集的创建过程包括了语言和仓库的选择、拉取请求数据的收集、任务实例的构建、基于执行的验证以及不必要的图像过滤等五个阶段。OmniGIRL数据集的应用领域主要在于评估和提升大型语言模型在解决GitHub问题方面的能力，旨在解决当前大型语言模型在多语言、多模态和多领域问题解决方面的局限性。

OmniGIRL is a multilingual, multimodal, and multi-domain GitHub issue-solving benchmark dataset containing 959 task instances spanning four programming languages (Python, JavaScript, TypeScript, and Java) and eight distinct domains. This dataset not only includes textual information but also multimodal content such as images, aiming to evaluate the capabilities of Large Language Models (LLMs) in solving GitHub-related issues. The creation process of the OmniGIRL dataset consists of five stages: selection of languages and repositories, collection of pull request data, construction of task instances, execution-based validation, and filtering of unnecessary images. The main application areas of the OmniGIRL dataset focus on evaluating and enhancing the problem-solving abilities of large language models for GitHub issues, with the goal of addressing the current limitations of large language models in multilingual, multimodal, and multi-domain problem-solving.

提供机构：

中山大学

创建时间：

2025-05-08

搜集汇总

数据集介绍

构建方式

OmniGIRL数据集通过多阶段流程构建，首先基于GitHub下载量筛选四种主流编程语言（Python、JavaScript、TypeScript、Java）的热门仓库，覆盖8个不同领域。利用GitHub API收集合并状态的Pull Request，通过属性过滤保留含测试文件修改的PR。每个任务实例提取基础提交版本、问题描述、测试补丁等12项关键属性，并采用Docker构建执行环境进行验证。特别地，人工筛选问题描述中的必要图像信息，最终形成包含959个实例的多模态数据集。

使用方法

使用时需构建Docker执行环境还原代码库状态，输入问题描述及关联代码库后生成补丁。评估阶段通过FAIL2PASS测试验证补丁正确性。针对多模态实例，可选用视觉增强LLM处理图像输入。提供三种基准方法：Oracle Retrieval直接定位修改文件，Agentless-X采用分层定位策略，AutoCodeRover-X通过代理迭代检索代码上下文。需注意JavaScript/TypeScript任务因匿名函数等特性表现较弱，且跨文件问题修复率显著低于单文件问题。

背景与挑战

背景概述

OmniGIRL是由中山大学珠海可信大模型重点实验室、华为云计算技术有限公司等机构的研究团队于2025年提出的多语言多模态GitHub问题解决基准。该数据集包含来自Python、JavaScript、TypeScript和Java四种编程语言的959个任务实例，覆盖8个不同领域，旨在评估大型语言模型（LLMs）在解决GitHub问题时的多语言处理和多模态理解能力。OmniGIRL的创建填补了现有基准在编程语言单一、领域覆盖狭窄以及忽略多模态信息等方面的不足，为软件工程领域的自动化问题解决提供了更全面的评估工具。

当前挑战

OmniGIRL面临的挑战主要包括两方面：首先，在领域问题解决方面，现有大型语言模型在跨语言问题解决和多模态信息理解上表现有限，例如GPT-4o仅能解决8.6%的问题，而在需要图像理解的任务上，最佳模型Claude-3.5-Sonnet的解决率仅为10.5%；其次，在数据集构建过程中，研究团队需要克服多语言代码解析、多模态信息标注以及跨领域数据收集等技术难题，例如如何有效处理不同编程语言的语法特性差异，以及如何准确识别和标注图像等非文本信息对问题解决的关键作用。

常用场景

经典使用场景

OmniGIRL数据集在软件工程领域中被广泛应用于评估大型语言模型（LLMs）在解决GitHub问题时的能力。该数据集通过覆盖多种编程语言（Python、JavaScript、TypeScript和Java）和多模态输入信息（如文本和图像），为研究者提供了一个全面的基准测试平台。经典使用场景包括自动化问题修复、代码补全和多语言问题解决能力的评估。

解决学术问题

OmniGIRL解决了现有基准测试在单一编程语言和狭窄领域覆盖上的局限性。通过引入多语言、多领域和多模态的数据集，该数据集能够更全面地评估LLMs在真实世界问题解决中的表现。此外，OmniGIRL还揭示了当前LLMs在处理跨文件问题和理解图像信息方面的不足，为未来的研究提供了改进方向。

实际应用

在实际应用中，OmniGIRL数据集被用于开发和优化自动化问题解决工具。例如，开发者可以利用该数据集训练和测试LLMs，以提升其在多语言环境下的代码修复能力。此外，数据集中的多模态信息（如图像和网站链接）为开发支持视觉理解和网络浏览能力的工具提供了重要资源。

数据集最近研究