C2Rust-Bench

Name: C2Rust-Bench
Creator: 俄亥俄州立大学
Published: 2025-04-21 22:48:45
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

https://doi.org/10.5281/zenodo.15249150

下载链接

链接失效反馈

官方服务：

资源简介：

C2Rust-Bench是一个为C到Rust语言转换评估而构建的最小化、代表性数据集，由俄亥俄州立大学的研究团队创建。该数据集包含来自真实世界程序中的15,503个函数，经过复杂度指标筛选，最终选出了2,905个具有代表性的函数。数据集旨在解决C到Rust转换工具的评估问题，通过提供一个小的但具有代表性的数据集，以减少分析时间并标准化不同工作的比较。

C2Rust-Bench is a minimal, representative dataset built for evaluating C-to-Rust language conversion tools, developed by the research team at The Ohio State University. This dataset contains 15,503 functions sourced from real-world programs, and after being screened based on complexity metrics, 2,905 representative functions are ultimately selected. The dataset aims to solve the evaluation problem of C-to-Rust conversion tools: by providing a small yet representative dataset, it helps reduce analysis time and standardize comparisons across different research works.

提供机构：

俄亥俄州立大学

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

C2Rust-Bench数据集的构建采用了多维复杂度度量的系统化采样方法。研究团队首先从65个真实世界程序中收集了15,503个C函数作为初始数据集。通过定义四个关键复杂度指标（包括C代码和Rust代码的可维护性指数、不安全代码复杂度以及数据类型复杂度），采用分区技术在多维空间创建数据分箱。运用主成分分析（PCA）计算综合复杂度得分后，通过系统采样从每个分箱中选取代表性函数，最终形成包含2,905个函数的精简数据集，实现了81.3%的数据量缩减。

使用方法

C2Rust-Bench专为评估C到Rust转译工具的性能而设计。使用者可将待测工具在数据集上运行，通过统计转译成功率、编译错误修复次数等指标进行量化评估。数据集提供标准化的函数级输入输出对，支持对转译正确性、代码安全性和惯用性等多维度分析。为保障评估一致性，建议配合提供的LLM交互框架使用，该框架包含预处理、自动转译和编译验证的完整流程，并可扩展接入不同转译引擎进行横向对比。

背景与挑战

背景概述

C2Rust-Bench数据集由俄亥俄州立大学的研究团队于2025年提出，旨在解决C到Rust语言转换的评估基准缺失问题。随着内存安全漏洞问题日益严峻，将C程序迁移至内存安全的Rust语言成为研究热点。该数据集从15,503个真实C函数中精选2,905个代表性样本，覆盖指针运算、内存操作等关键特性，为自动化转换工具提供了标准化评估基准。其创新性在于采用多维复杂度指标（可维护性指数、不安全代码比例等）和系统抽样方法，在保证代表性的同时实现81.3%的数据精简。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决C与Rust在内存模型、类型系统等根本差异导致的转换难题，如指针算术的合法性验证、所有权语义的准确映射等；在构建过程中，需克服代码复杂度量化（需同时考虑C源程序和Rust目标程序的特性）、样本选择偏差（需平衡控制流复杂度与数据类型的多样性）以及LLM辅助转换的可靠性（需处理24.4%的初始转换失败案例）等技术障碍。此外，还需确保所选函数能有效反映真实场景中函数级转换的典型挑战，而非仅包含边缘案例。

常用场景

经典使用场景

C2Rust-Bench数据集在C到Rust转译研究中扮演着核心角色，尤其在评估自动化转译工具的准确性和效率方面。该数据集精选了2,905个具有代表性的C函数，覆盖了从简单到复杂的多种编程结构，为研究者提供了一个标准化的测试平台。通过这一数据集，研究者能够系统地比较不同转译工具在处理指针运算、内存操作等关键特性时的表现，从而推动转译技术的进步。

解决学术问题

C2Rust-Bench解决了C到Rust转译领域缺乏标准化评估数据集的难题。传统方法往往依赖大规模但冗余的代码库，导致评估效率低下且结果不可比。该数据集通过基于代码复杂度指标的智能筛选，确保了样本的多样性和代表性，显著降低了评估成本（减少81.3%的函数数量），同时为转译工具的鲁棒性测试、内存安全特性验证等研究提供了量化基准。这一创新直接响应了DARPA等机构对高效转译技术的迫切需求。

实际应用

在实际工程领域，C2Rust-Bench被广泛应用于遗留系统现代化改造。例如网络安全企业利用该数据集验证其转译工具链的可靠性，确保将关键基础设施中的C代码转换为符合Rust内存安全标准的代码时不会引入运行时错误。开源社区则基于该数据集开发了针对特定场景（如嵌入式系统）的转译优化插件，显著提升了unsafe代码块的自动重构能力。微软等企业在其内部技术报告中证实，采用此类基准可减少38%的代码审计时间。

数据集最近研究