SwiftEval
收藏arXiv2025-05-30 更新2025-06-03 收录
下载链接:
https://doi.org/10.5281/zenodo.14445601
下载链接
链接失效反馈官方服务:
资源简介:
SwiftEval是一个专门针对Swift编程语言的基准测试数据集,包含28个精心设计的编程问题。它旨在评估大型语言模型在Swift代码生成方面的能力,填补了现有以Python为中心的基准测试在Swift语言评估方面的不足。SwiftEval的创建是为了确保多语言代码生成模型的质量,它关注于Swift语言特有的静态类型、协议、泛型、枚举、闭包等特性。通过这个数据集,研究人员可以更准确地评估模型在不同编程语言上的性能,并为未来模型的发展提供指导。
SwiftEval is a benchmark dataset specifically tailored for the Swift programming language, which includes 28 carefully curated programming problems. Its primary goal is to evaluate the code generation capabilities of large language models (LLMs) for Swift, filling the critical gap in existing Python-centric benchmark datasets for Swift language assessment. Developed to ensure the quality of multilingual code generation models, SwiftEval focuses on Swift-unique language features such as static typing, protocols, generics, enumerations, closures and other distinctive characteristics. With this dataset, researchers can more accurately evaluate the performance of models across diverse programming languages and provide valuable guidance for the future advancement of code generation models.
提供机构:
MacPaw Kyiv, Ukraine
创建时间:
2025-05-30
原始信息汇总
数据集概述
基本信息
- 标题: Experiment data for the SwiftEval benchmark
- DOI: 10.5281/zenodo.14445601
- 发布日期: 2024年12月13日
- 版本: v1
- 资源类型: Dataset
- 出版商: Zenodo
- 许可证: Creative Commons Attribution 4.0 International
创建者
- Petrukha, Ivan (Researcher)
- Kurliak, Yana (Researcher)
- Stulova, Nataliia (Researcher)
- 所属机构: MacPaw
描述
该数据集包含28个手工制作的SwiftEval基准测试问题以及44个使用不同LLM运行的实验结果。数据集结构如下:
problems.json: 包含28个问题experiments文件夹: 包含44个实验数据{experiment_name}completions.jsonl: 包含原始LLM文本生成evaluations.jsonl: 包含提取的代码和评估结果metadata.jsonl: 包含LLM模型检查点和生成参数
文件信息
- 文件名: swifteval-paper-data.zip
- 大小: 2.3 MB
- MD5校验值: a7e1719e30df45effc598e884c8dbfe3
统计信息
- 总浏览量: 64
- 总下载量: 9
- 总数据量: 20.5 MB
引用格式
Petrukha, I., Kurliak, Y., & Stulova, N. (2024). Experiment data for the SwiftEval benchmark [Data set]. Zenodo. https://doi.org/10.5281/zenodo.14445601
外部资源
- 索引于: OpenAIRE
搜集汇总
数据集介绍

构建方式
SwiftEval数据集的构建采用了质量优先的方法论,区别于现有通过LLM自动翻译Python基准的通用范式。研究团队由具备Swift语言深厚背景的软件工程师手工设计了28个编程问题,每个问题均包含自然语言描述、代码上下文、生成入口点及3-5个单元测试。这些问题覆盖Swift特有的静态类型、协议、泛型等核心特性,同时融合函数级与类级任务,包含文件系统操作、设计模式实现等实际开发场景。为确保评估有效性,所有问题均通过Apple官方Swift编译器(5.10版本)验证执行环境。
特点
该数据集的核心价值在于其语言特异性设计,首次系统性地解决了现有基准在Swift评估中的类型系统破坏、可选值忽略等关键缺陷。相较于HumanEval-XL等通用基准27%的问题存在AnyHashable类型误用的情况,SwiftEval通过手工构建确保100%符合Swift语法规范。数据集特别强调对Swift特有编程范式的考察,其中86%的评估失败源于编译错误,有效区分了模型对语言核心机制的掌握程度。实验数据显示,其评估结果与模型规模的相关系数达0.5,显著高于HumanEval的0.3,证明其能更准确反映模型真实能力。
使用方法
使用该数据集时需配置macOS 14.6.1环境及Swift 5.10工具链。评估采用pass@1指标,设置温度参数0.2、token概率阈值0.95,每个问题生成20个代码样本以保证统计显著性。对于开源模型,建议采用分词器配置中的默认提示模板;闭源模型可通过API调用实现。生成的代码需先通过编译器前端检查语法有效性,再执行单元测试验证功能正确性。研究团队特别强调应在沙箱环境中运行测试,以规避潜在安全风险。数据集支持对44种主流代码LLM的横向比对,其细粒度评估结果可揭示模型在特定语言特性上的表现差异。
背景与挑战
背景概述
SwiftEval是由MacPaw Kyiv的研究团队于2025年提出的首个面向Swift编程语言的代码生成评估基准。该数据集诞生于大型语言模型(LLMs)在代码生成领域取得显著进展但缺乏针对性评估工具的背景下,主要解决现有多语言基准(如HumanEval-XL和MultiPL-E)因Python中心化设计导致的Swift语言特性评估缺失问题。研究团队通过手工构建28个涵盖静态类型、协议、泛型等Swift特有特性的编程问题,填补了该领域高质量评估工具的空白。其创新性体现在采用质量优先的构建策略,而非主流基准的自动化翻译方法,为Swift生态的模型能力评估提供了可靠标准。
当前挑战
SwiftEval面临的挑战主要体现在两个维度:领域问题方面,需解决Swift语言特有的类型系统、可选值机制等特性在代码生成中的准确评估,现有基准因直接翻译Python问题导致类型错误(如滥用AnyHashable)或语义偏差(如舍入规则冲突);构建过程方面,手工设计需平衡问题多样性(涵盖算法、设计模式等)与语言特性覆盖度,同时避免训练数据污染(如HumanEval存在的18%预训练数据重叠问题)。此外,较小规模模型在语言特异性任务上的性能骤降(如CodeGemma 7B下降17.6分)揭示了模型泛化能力的本质挑战。
常用场景
经典使用场景
SwiftEval数据集专为评估大型语言模型(LLMs)在Swift编程语言中的代码生成能力而设计。在自然语言到代码转换任务中,该数据集通过精心设计的28个问题,覆盖了Swift特有的语言特性,如静态类型、协议、泛型、枚举和闭包等。其经典使用场景包括对44种主流代码生成模型的功能性正确性测试,尤其关注模型在语言特定特征上的表现差异。
衍生相关工作
SwiftEval的构建方法论启发了后续多个语言专用基准的开发,如JavaBench对面向对象特性的专项评估、CPP-UTBench对C++单元测试生成的探索。其揭示的模型尺寸与性能相关性(0.50 vs HumanEval的0.30)为后续研究如DeepSeek Coder V2等模型架构优化提供了方向。数据集采用的类级别代码生成评估框架,也被ClassEval等基准继承发展。
数据集最近研究
最新研究方向
近年来,随着大语言模型(LLMs)在代码生成领域的显著进展,如何准确评估其生成的代码质量成为研究热点。SwiftEval作为首个专注于Swift编程语言的基准测试,填补了现有评估工具在语言特性覆盖上的空白。当前研究前沿集中于解决Python中心化基准测试在多语言环境下的局限性,尤其是针对静态类型、编译型语言如Swift的适配问题。SwiftEval通过手工设计的28个问题,深入考察了协议、泛型、枚举等Swift特有特性,揭示了模型在语言特定任务上的性能差异。这一工作不仅推动了编程语言理解能力评估的精细化发展,也为多语言代码生成模型的优化提供了重要参考。随着苹果生态的持续繁荣,Swift语言在移动开发领域的影响力日益增强,此类语言专用基准测试的构建将成为提升LLMs实用性的关键环节。
相关研究论文
- 1SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code EvaluationMacPaw Kyiv, Ukraine · 2025年
以上内容由遇见数据集搜集并总结生成



