five

Synthline v1

收藏
arXiv2025-06-26 更新2025-06-28 收录
下载链接:
https://github.com/abdelkarim-elhajjami/synthline/releases/tag/v1
下载链接
链接失效反馈
官方服务:
资源简介:
Synthline v1 是一个基于产品线方法的需求工程合成数据生成工具,旨在通过先进的生成策略和审查技术来生成高质量的合成需求数据。该工具通过提示策略、自动提示优化和生成后审查来控制合成数据的质量,以适应不同的需求工程分类任务。Synthline v1 的设计遵循设计科学研究方法,通过迭代设计和评估来提高工具的性能和实用性。

Synthline v1 is a requirements engineering synthetic data generation tool based on the product line approach, aiming to generate high-quality synthetic requirements data via advanced generation strategies and review techniques. This tool controls the quality of synthetic data through prompting strategies, automatic prompt optimization and post-generation review, so as to adapt to various requirements engineering classification tasks. The design of Synthline v1 follows the design science research methodology, and it improves the tool's performance and practicality through iterative design and evaluation.
提供机构:
巴黎第一大学,巴黎,法国
创建时间:
2025-06-26
搜集汇总
数据集介绍
main_image_url
构建方式
Synthline v1采用产品线工程方法,通过特征模型系统性地控制合成需求数据的生成。该数据集利用大型语言模型(如GPT-4.1 nano)生成合成需求,并通过多样本提示策略和PACE(Prompt Actor-Critic Editing)自动优化提示,以提高生成数据的质量和多样性。数据集生成过程中,用户可以通过18个参数配置生成过程,包括领域、语言、需求来源等,确保生成的数据覆盖多种语义和结构组合。
使用方法
Synthline v1数据集适用于训练和评估需求工程分类模型。用户可以通过配置特征模型参数生成特定领域和任务的数据集。数据集支持多种输出格式(如CSV和JSON),便于集成到现有机器学习流程中。实验表明,合成数据在某些任务(如安全需求和缺陷分类)中表现优于人工标注数据,可作为替代或补充数据源。用户还可以通过PACE优化和相似性过滤进一步调整数据质量,以满足特定任务需求。
背景与挑战
背景概述
Synthline v1是由巴黎第一大学(Paris 1 Panthéon–Sorbonne University)的Abdelkarim El-Hajjami和Camille Salinesi于2025年提出的一个创新性数据集,旨在解决需求工程领域(AI4RE)中公开标注数据集匮乏的核心问题。该数据集基于产品线工程方法,通过大语言模型(LLMs)生成合成需求数据,并引入了多样本提示和PACE(Prompt Actor-Critic Editing)优化等先进技术。Synthline v1的诞生标志着需求工程领域从依赖有限真实数据向可控合成数据生成的范式转变,其通过系统化的生成策略和优化方法,显著提升了合成数据在需求分类任务中的效用性和多样性。
当前挑战
Synthline v1面临的主要挑战包括:1) 领域问题挑战:需求工程中的分类任务(如缺陷检测、功能与非功能需求区分)需要高度语义精确的数据,而合成数据需在保持语言自然性的同时准确反映各类需求的细微差别;2) 构建过程挑战:多样本提示生成需平衡批处理效率与样本独立性,PACE优化在提升语义多样性时可能导致特定任务性能下降,且基于相似度的后处理虽增加多样性却可能剔除对分类边界至关重要的样本。此外,跨领域(如医疗、电信)需求的语言特性差异也增加了生成一致且高质量数据的复杂度。
常用场景
经典使用场景
在需求工程(Requirements Engineering, RE)领域,Synthline v1数据集被广泛应用于需求分类任务的研究中。该数据集通过大规模语言模型(LLM)生成合成需求数据,为研究人员提供了丰富的实验材料。特别是在需求缺陷检测、功能与非功能需求分类、质量与非质量需求分类以及安全与非安全需求分类等任务中,Synthline v1展现了其强大的数据生成能力和多样性。
解决学术问题
Synthline v1数据集解决了需求工程领域长期存在的数据稀缺问题。传统上,公开可用的、标注良好的需求数据集极为有限,这严重制约了人工智能在需求工程中的应用。通过生成高质量的合成需求数据,Synthline v1不仅填补了这一空白,还显著提升了分类任务的性能,例如在安全需求分类和缺陷检测任务中,合成数据的表现甚至优于人工标注的数据。
实际应用
在实际应用中,Synthline v1数据集为企业和研究机构提供了一种高效、低成本的需求数据生成方案。通过该数据集,用户可以快速生成大量多样化的需求文本,用于训练和优化机器学习模型。此外,Synthline v1还支持多语言和多领域的需求生成,进一步扩展了其应用范围,使其成为需求工程自动化的重要工具。
数据集最近研究
最新研究方向
在人工智能驱动的需求工程(AI4RE)领域,Synthline v1数据集的最新研究聚焦于利用大语言模型(LLM)生成高质量合成需求数据的方法优化与质量评估。研究通过多样本提示策略(multi-sample prompting)和基于PACE(Prompt Actor-Critic Editing)的自动化提示优化技术,显著提升了合成数据在多样性(如语义多样性提升22-28%)和实用性(分类任务F1分数提高6-44个百分点)方面的表现。前沿探索揭示了合成数据在特定任务(如安全需求分类和缺陷检测)中可超越人工标注数据的潜力(F1分数分别提升7.8和15.4个百分点),同时发现相似性筛选虽能增强数据多样性,却可能损害分类性能。该研究为缓解需求工程领域数据稀缺问题提供了系统性解决方案,并推动了数据生成与模型优化的协同设计范式。
相关研究论文
  • 1
    How Good Are Synthetic Requirements ? Evaluating LLM-Generated Datasets for AI4RE巴黎第一大学,巴黎,法国 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作