five

Hammurabi’s Code

收藏
arXiv2025-04-03 更新2025-04-07 收录
下载链接:
https://doi.org/10.5281/zenodo.14930306
下载链接
链接失效反馈
官方服务:
资源简介:
Hammurabi’s Code是一个根据有害软件工程场景分类法手动编写和创建的提示数据集。该数据集由代尔夫特理工大学创建,旨在评估大型语言模型在软件工程领域的潜在有害性。数据集包含多个子类别,涵盖版权、恶意软件生成等方面,用于评估不同LLM模型生成代码的有害性。

Hammurabi’s Code is a prompt dataset manually developed and curated based on a taxonomy of harmful software engineering scenarios. This dataset was constructed by Delft University of Technology, with the goal of evaluating the potential harmful impacts of Large Language Models (LLMs) within the software engineering domain. The dataset encompasses multiple subcategories covering areas such as copyright-related issues and malware generation, and is designed to evaluate the harmfulness of code generated by various LLM models.
提供机构:
代尔夫特理工大学
创建时间:
2025-04-03
搜集汇总
数据集介绍
main_image_url
构建方式
Hammurabi’s Code数据集的构建基于对大型语言模型(LLM)在软件工程领域潜在危害的系统性评估。研究团队首先开发了一个有害软件工程场景的分类法,涵盖版权、恶意软件和不公平/危险用例三大类别及其26个子类别。基于这一分类法,研究人员手工编写了509个针对性提示(prompt),这些提示经过多轮迭代和专家讨论,确保覆盖各类有害场景并避免歧义。数据集构建过程中采用了红队测试(red-teaming)方法,通过模拟对抗性场景来全面检验模型的安全性。
特点
该数据集的核心特点体现在其系统性和专业性:1)分类体系完整,涵盖软件工程领域三大类26种潜在危害场景;2)提示设计严谨,每个提示都经过专家验证和优化,确保意图明确且具有针对性;3)标注体系科学,采用四级分类标准(直接回答、带警告回答、拒绝回答但提供无害信息、完全拒绝),并经过人工验证确保可靠性;4)规模适中,包含509个高质量提示,在覆盖广度和深度之间取得平衡。数据集特别关注代码生成场景中的伦理边界问题,填补了现有研究在专业领域安全性评估方面的空白。
使用方法
该数据集主要用于评估LLM在代码生成任务中的安全性表现。使用时需遵循标准化流程:首先将提示输入待测模型,收集生成响应;然后通过训练好的自动评估器(基于text-embedding-3-small嵌入和AutoSklearn分类器)对响应进行分类,判断其危害等级。研究证实该评估器与人工标注的一致性系数(Cohen's κ)达0.82。用户可通过对比不同模型在各类别下的表现,分析模型安全性差异。数据集还支持细粒度分析,既可评估整体危害程度,也能考察模型在特定子类别(如数字版权管理、远程访问木马等)中的表现。配套的开源框架提供了完整的实验复现方案。
背景与挑战
背景概述
Hammurabi’s Code是由荷兰代尔夫特理工大学的研究团队于2025年创建的一个数据集,旨在评估大型语言模型(LLMs)在软件工程领域中的潜在危害性。该数据集基于对有害软件工程场景的分类学,包含509个手动编写的提示,涵盖版权、恶意软件和不公平/危险用例三大类别。研究团队通过设计自动评估器,对70个开源和闭源LLMs进行了系统性评估,揭示了不同模型在无害性方面的显著差异。该数据集不仅填补了LLMs在软件工程任务中安全评估的空白,还为未来针对软件工程任务的有针对性对齐策略提供了基础。
当前挑战
Hammurabi’s Code面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决LLMs在代码生成任务中可能产生的有害内容问题,如生成恶意代码、侵犯版权或产生不公平/危险的代码。然而,不同模型在无害性方面表现不一,部分模型甚至在某些情况下会生成有害内容,这突显了当前LLMs在软件工程领域中对齐策略的不足。2) 构建过程中的挑战:在数据集构建过程中,研究团队需要精心设计提示以避免双重用途问题,确保提示明确有害而非良性。此外,手动标注响应以训练自动评估器也面临主观性和一致性的挑战,需要通过多轮讨论和示例来提高标注者间的一致性。
常用场景
经典使用场景
Hammurabi’s Code数据集在评估大型语言模型(LLM)在编程任务中的潜在危害性方面具有经典应用场景。该数据集通过构建一个全面的有害软件工程场景分类体系,并基于此生成提示,系统地评估了多种开源和闭源LLM在代码生成任务中的安全性。其核心应用在于通过自动评估器对模型输出进行分类,识别模型在生成代码时可能引发的版权侵犯、恶意软件生成以及不公平/危险用例等风险。
实际应用
在实际应用中,Hammurabi’s Code为开发安全的AI编程助手提供了关键工具。其评估框架可集成至IDE插件或持续集成流程,实时检测LLM生成的代码是否包含恶意逻辑、版权风险或偏见。例如,在代码自动补全场景中,该系统可拦截生成键盘记录器或勒索软件等危险代码的请求,同时为网络安全研究中的合法逆向工程等场景保留灵活性。
衍生相关工作
该数据集催生了多项相关研究,包括对LLM越狱技术的系统探索(如针对代码生成模型的特定提示工程)、安全层微调方法(如基于拒绝样本的强化学习),以及多模态代码安全评估框架的扩展。其分类体系还被Adaptive Red Teaming等后续工作采纳,用于构建更细粒度的软件工程伦理评估基准。值得注意的是,研究发现的模型家族行为一致性现象,推动了针对训练方法对安全性影响的深入分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作