five

DRAFT

收藏
arXiv2025-05-02 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.01307v1
下载链接
链接失效反馈
官方服务:
资源简介:
本文提出了一种名为DRAFT的方法,用于增强大型语言模型(LLM)在安全关键合规评估方面的能力。DRAFT通过引入一种新的微调框架,同时访问软件文档和适用的参考标准,对现有的检索增强生成(RAG)技术进行了改进。为了微调DRAFT,我们开发了一种半自动的数据集生成方法,该方法结合了不同数量的相关文档和有意义的干扰项,与真实世界的评估场景非常相似。

This paper proposes a method named DRAFT to enhance the capabilities of Large Language Models (LLMs) in safety-critical compliance assessment. DRAFT improves upon existing Retrieval-Augmented Generation (RAG) techniques by introducing a novel fine-tuning framework that simultaneously accesses software documentation and applicable reference standards. To fine-tune DRAFT, we developed a semi-automatic dataset generation method that combines relevant documents of varying quantities and meaningful distractors, which closely mimics real-world assessment scenarios.
提供机构:
Digital Transit Limited, UK, Department of Computer Science, University of Huddersfield, UK
创建时间:
2025-05-02
搜集汇总
数据集介绍
main_image_url
构建方式
在安全关键软件评估领域,传统的人工评估方法受限于效率和准确性。DRAFT数据集通过半自动化的方法构建,结合了双重检索架构,同时访问软件文档和适用的参考标准。具体而言,数据集生成过程包括从EN50128标准中提取合规性问题,并将其转化为评估查询。通过混合检索技术(密集向量相似性和词汇匹配)和重排序步骤,确保检索结果的相关性和精确性。此外,数据集还引入了干扰项,模拟真实评估场景中可能出现的无关信息,以提高模型的区分能力。
特点
DRAFT数据集的特点在于其针对安全关键软件评估任务的专门设计。数据集不仅包含丰富的合规性查询和对应的文档证据,还通过双重检索架构整合了领域特定的标准文档。数据集中的每个实例都经过精心设计,包含可变数量的相关文档和干扰项,以增强模型在复杂评估场景中的鲁棒性。此外,数据集的问答对经过人工验证,确保了高质量和可靠性,特别适合用于训练和评估检索增强生成(RAG)模型。
使用方法
DRAFT数据集的使用方法主要围绕其双重检索架构和微调框架展开。研究人员可以通过加载数据集中的合规性查询、文档组和上下文组,利用预定义的提示模板生成评估答案。数据集支持低秩自适应(LoRA)微调,适用于资源受限的环境。在实际应用中,用户可以将数据集与现有的RAG管道集成,通过微调模型提升其在安全关键软件评估任务中的表现。数据集还提供了训练、验证和测试分割,便于模型开发和性能评估。
背景与挑战
背景概述
DRAFT(Document Retrieval Augmented Fine-Tuning)数据集由Digital Transit Limited与哈德斯菲尔德大学的研究团队于2025年提出,旨在解决安全关键软件评估中的合规性分析难题。该数据集基于铁路行业安全标准EN50716,通过双检索架构同步访问软件文档与法规条文,创新性地将检索增强生成(RAG)与微调技术结合。其核心研究聚焦于提升大型语言模型在复杂监管框架下的证据追溯能力与领域推理精度,实验表明可使GPT-4o-mini模型的评估准确率提升7%,为高可靠性领域的自动化合规审查提供了可解释性强的解决方案。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决安全关键软件文档与多层级标准条款的精准匹配、负样本(不合规证据)的生成建模,以及模型输出需满足监管要求的可追溯性;在构建过程中,需克服双检索架构下文档与标准条文的混淆问题、半自动化数据标注的专家验证成本,以及动态干扰项(distractor)注入导致的模型过拟合风险。此外,合规性问题特有的多文档关联推理需求,也突破了传统RAFT方法单一上下文的处理范式。
常用场景
经典使用场景
DRAFT数据集在安全关键软件评估领域具有广泛的应用价值,尤其在铁路行业的软件完整性等级(SIL)评估中表现突出。该数据集通过结合双重检索架构,能够同时访问软件文档和适用的参考标准,为评估人员提供了一个高效的自动化工具。评估人员可以利用DRAFT数据集快速生成软件评估报告,识别不符合项,并确保开发过程符合EN50716等国际标准的要求。这一过程不仅显著提高了评估效率,还降低了人为错误的风险,为安全关键软件的合规性评估提供了可靠的技术支持。
实际应用
DRAFT数据集在实际应用中展现了强大的潜力,特别是在铁路行业的软件安全评估中。评估人员可以利用该数据集快速查询文档,生成详细的合规性报告,从而大幅缩短评估周期并提高报告的准确性。此外,DRAFT数据集还能够帮助识别开发过程中的非合规项,例如需求追踪不足或测试覆盖率不足等问题,为改进开发流程提供了有力支持。这种自动化工具不仅降低了评估成本,还提升了评估的透明度和可追溯性,为安全关键软件的开发和质量保障提供了切实可行的解决方案。
衍生相关工作
DRAFT数据集的推出催生了一系列相关研究工作,特别是在检索增强生成(RAG)和微调技术的结合应用方面。例如,基于DRAFT的双重检索架构,研究人员进一步优化了检索算法,提高了文档和标准检索的准确性。此外,DRAFT的微调框架也为其他领域的合规性评估提供了借鉴,如医疗设备和航空航天等安全关键领域。这些衍生工作不仅扩展了DRAFT数据集的应用范围,还推动了检索增强生成技术在更多专业化场景中的发展,为相关领域的研究和实践注入了新的活力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作