ArtifactsBench

github2025-06-27 更新2025-06-28 收录

下载链接：

https://github.com/Tencent-Hunyuan/ArtifactsBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

ArtifactsBench是一个用于评估LLM代码生成的数据集，包含问题和答案字段，可用于模型推理和评估。

ArtifactsBench is a dataset intended for evaluating Large Language Model (LLM) code generation. It comprises question and answer fields, and is applicable to model inference and evaluation.

创建时间：

2025-06-26

原始信息汇总

ArtifactsBench 数据集概述

数据集简介

名称: ArtifactsBench
开发团队: Tencent Hunyuan Team
目的: 用于评估大语言模型(LLM)在代码生成任务中的表现，弥合视觉交互评估的差距

数据集内容

数据格式: JSON格式
- 包含字段:
  - index: 唯一标识符
  - question: 问题内容
  - answer: 模型生成的答案(需用户自行填充)

评估方法

使用Gemini模型评估

输入要求: 需提供包含index,question,answer的输入文件
输出结果:
- gemini_reason: Gemini模型的解释
- gemini_ans: Gemini模型给出的评分
关键参数:
- API密钥、模型标记、API端点URL
- 截图数量(默认3)
- 分词器目录(防止token过多)
- 并行进程数(默认16)

使用Qwen2.5-VL-72B模型评估

模型部署: 需使用vLLM框架部署
输入输出: 与Gemini评估类似
关键参数:
- 模型目录路径
- 主机IP地址
- 截图目录
- IP列表文件路径(用于分布式处理)

环境配置

依赖包:
- vllm==0.8.3
- pytest-playwright
- transformers
- requests
- tqdm
Playwright配置:
- 需要执行playwright install和playwright install-deps

引用信息

bibtex @misc{tencent2025artifactsbenchbridgingvisual, title={ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation}, author={Tencent Hunyuan Team}, year={2025}, archivePrefix={arXiv}, primaryClass={cs.CL}, }

搜集汇总

数据集介绍

构建方式

在大型语言模型（LLM）代码生成评估领域，ArtifactsBench数据集的构建旨在弥合视觉交互与代码生成之间的鸿沟。该数据集通过精心设计的JSON格式组织数据，每个条目包含唯一的索引标识符、问题描述以及模型生成的答案。构建过程中，研究人员采用标准化流程确保数据的一致性和可扩展性，为后续评估提供了坚实基础。

特点

ArtifactsBench数据集的核心特点在于其专注于代码生成与视觉交互的交叉领域。数据集不仅包含传统文本形式的问答对，还整合了视觉元素，如屏幕截图，以支持多模态评估。这种独特的设计使得评估过程更加贴近实际开发场景，能够全面检验模型在复杂交互环境中的表现。数据集的多样性和真实性为研究者提供了丰富的实验素材。

使用方法

使用ArtifactsBench数据集进行评估时，研究人员需按照指定格式准备输入文件，包含索引、问题和模型生成的答案。评估过程支持通过Gemini或Qwen2.5-VL-72B等先进模型进行，用户需配置相应的API密钥、模型路径等参数。数据集提供了灵活的评估选项，包括多进程处理能力，以适应不同规模的实验需求，确保评估效率与准确性并重。

背景与挑战

背景概述

ArtifactsBench数据集由腾讯混元团队于2025年推出，旨在解决大语言模型（LLM）在代码生成评估中存在的视觉交互鸿沟问题。该数据集聚焦于代码生成任务的多模态评估，通过整合视觉与交互元素，为研究者提供了一个更为全面的评估框架。其核心研究问题在于如何准确衡量LLM生成的代码在实际应用场景中的可用性，特别是在需要视觉反馈的交互式环境中。这一创新性工作为代码生成领域的研究树立了新的评估标准，推动了多模态大模型在软件开发自动化中的应用。

当前挑战

ArtifactsBench面临的挑战主要体现在两个方面：在领域问题层面，如何准确评估代码生成模型在视觉交互场景中的表现是一个复杂问题，需要解决传统文本评估与多模态评估之间的不一致性；在构建过程层面，数据集需要协调代码功能正确性与视觉反馈一致性之间的平衡，同时确保评估指标的客观性和可重复性。此外，大规模多模态数据的采集与标注，以及不同模态特征的有效融合，都为数据集的构建带来了技术挑战。

常用场景

经典使用场景

在大型语言模型（LLM）代码生成领域，ArtifactsBench数据集通过提供视觉交互式评估框架，填补了传统纯文本评估与真实开发场景之间的鸿沟。该数据集以代码生成任务为核心，结合屏幕截图等视觉元素，构建了多模态评估环境，使研究者能够更全面地考察模型在真实编程环境中的表现。这种创新性的评估方式为代码生成模型的性能测试提供了更接近实际开发场景的基准平台。

衍生相关工作

该数据集的发布催生了一系列关于多模态代码生成评估的创新研究。基于其构建的评估框架，研究者们相继提出了结合视觉注意力机制的代码生成模型、支持界面截图解析的增强型评估系统等工作。特别在视觉-代码对齐任务中，ArtifactsBench启发了如Screen2Code等衍生项目的发展，这些工作通过扩展原始数据集的视觉交互维度，进一步推动了编程智能体与开发环境深度融合的研究方向。

数据集最近研究