Synthline
收藏arXiv2025-05-06 更新2025-05-08 收录
下载链接:
https://github.com/abdelkarim-elhajjami/synthline/tree/v0.0.0
下载链接
链接失效反馈官方服务:
资源简介:
Synthline 是一个基于产品线(PL)的方法,利用大型语言模型系统地生成合成需求工程数据,以解决数据稀缺问题。该数据集通过实证评估,证明了合成数据在训练下游模型方面的有效性。数据集包含从真实软件系统中收集的需求,以及学生项目的高质量需求文档,旨在帮助研究人员更好地理解和解决需求工程中的缺陷检测问题。
Synthline is a product line (PL)-based method that uses Large Language Models (LLMs) to systematically generate synthetic Requirements Engineering (RE) data to address the issue of data scarcity. This dataset has been empirically evaluated, proving the effectiveness of synthetic data in training downstream models. The dataset contains requirements collected from real-world software systems as well as high-quality requirement documents from student projects, aiming to assist researchers in better understanding and addressing the defect detection problem in Requirements Engineering.
提供机构:
巴黎第一大学
创建时间:
2025-05-06
搜集汇总
数据集介绍

构建方式
Synthline数据集的构建采用了基于产品线(Product Line, PL)的方法,通过大型语言模型(LLMs)系统性地生成用于需求工程(RE)分类任务的合成数据。该方法分为两个主要阶段:领域工程和应用工程。在领域工程阶段,研究者首先通过领域分析定义分类需求用例的范围和变异性,形成特征模型(Feature Model, FM)。随后,开发了可配置的生成工作流Synthline作为共享平台。在应用工程阶段,根据特定需求用例从FM中选择和配置特征,利用Synthline生成相应的数据。具体生成过程中,采用了多步骤生成方法,针对每种缺陷类别分别生成子集,确保了数据的多样性和可控性。
特点
Synthline数据集的特点主要体现在其系统性和可控性上。首先,数据集通过特征模型实现了对生成过程的精细控制,包括生成器配置(如LLM选择、温度和TopP参数)、生成数据特性(如需求类型、领域和语言)、机器学习任务特性(如分类标签和描述)以及输出格式和大小的灵活配置。其次,数据集在多样性方面表现出一定的局限性,尽管绝对词汇量较大,但归一化后的词汇密度较低,语义相似度较高,且短语重复率显著高于真实数据。然而,实验证明这些合成数据在训练下游模型时表现出色,特别是在与真实数据结合使用时,能显著提升模型性能。
使用方法
Synthline数据集的使用方法主要围绕其在需求工程分类任务中的应用展开。研究者可以采用三种主要训练策略:仅使用合成数据、结合真实与合成数据的混合训练、以及组合多个合成数据集。实验表明,混合训练策略(真实数据+GPT-4o合成数据)效果最佳,能实现85%的精度提升。使用时应首先根据具体任务需求配置特征模型参数,生成相应数据。随后可采用标准自然语言处理流程,如使用BERT-base-uncased作为骨干网络进行微调,建议学习率设为5e-5,批量大小为32,训练6个epoch。评估时建议采用train-on-synthetic, test-on-real范式,保持30%的真实数据作为固定测试集以确保评估一致性。
背景与挑战
背景概述
Synthline数据集由巴黎第一大学Panthéon-Sorbonne的Abdelkarim El-Hajjami和Camille Salinesi于2025年提出,旨在解决需求工程(RE)领域中高质量数据集稀缺的核心问题。该数据集创新性地采用产品线(PL)方法,利用大语言模型(LLM)系统生成用于基于分类的需求工程用例的合成数据。研究背景植根于现代需求工程对自然语言处理和机器学习技术的依赖,而这些技术的有效性受限于真实数据的获取难度和隐私限制。Synthline通过生成合成数据不仅弥补了真实数据的不足,还通过特征模型(FM)实现了对数据属性的精细控制,支持包括需求规范缺陷识别在内的多种RE任务。其实证研究表明,合成数据与真实数据结合使用时,模型精确度可提升85%,召回率提高2倍,为需求工程领域的数据驱动研究提供了新的方法论支撑。
当前挑战
Synthline面临的主要挑战体现在两个维度:领域问题层面,需求工程中自然语言的复杂性和歧义性使得生成具有足够多样性和真实性的合成数据尤为困难,特别是在处理模糊性、非可测量性等专业缺陷类别时;数据构建层面,LLM生成的文本存在词汇密度低(仅真实数据的1/6)、语义相似度高(APS值比真实数据高12-19%)以及短语重复严重(INGF指标高出2-4倍)等问题。此外,多源合成数据组合可能产生负协同效应,如GPT-4o与DeepSeek-V3数据联合使用时性能反而下降14%,这要求对合成数据源进行严格筛选和优化。技术挑战还包括如何通过提示工程精确控制LLM生成符合特定缺陷特征的文本,以及平衡约束自然语言格式带来的标准化优势与语言多样性损失之间的矛盾。
常用场景
经典使用场景
在需求工程(RE)领域,Synthline数据集通过产品线(PL)方法和大语言模型(LLMs)生成合成数据,主要用于分类任务。其经典应用场景包括需求规范缺陷的自动识别,例如模糊性、非可测量性等缺陷类别的分类。该数据集通过结构化提示模板生成多样化的需求文本,支持不同领域(如医疗保健、餐厅管理)和语言(如英语)的需求样本,为机器学习模型提供了丰富的训练资源。
实际应用
在实际应用中,Synthline数据集被用于开发自动化需求审查工具,帮助企业在早期阶段识别规范缺陷,降低后期开发成本。例如,在电子健康记录系统中,该数据集训练的模型可检测模糊或非原子性需求,提升文档质量。此外,其多语言和领域适配特性支持跨国企业的本地化需求分析,增强了需求工程的标准化和效率。
衍生相关工作
Synthline衍生了多项经典研究,包括基于LLMs的多步生成优化(如语义控制提示模板)、混合数据训练策略的效能分析,以及需求缺陷分类器的跨领域迁移研究。相关工作还扩展了FM的应用,如动态调整温度参数(Temperature)以平衡生成多样性与一致性,或结合开源模型(如DeepSeek-V3)降低生成成本,推动了合成数据在软件工程中的方法论创新。
以上内容由遇见数据集搜集并总结生成



