StorySeek

Name: StorySeek
Creator: 同济大学
Published: 2025-03-17 23:31:20
License: 暂无描述

arXiv2025-03-17 更新2025-03-19 收录

下载链接：

https://github.com/SoftACE-Lab/goal2story

下载链接

链接失效反馈

官方服务：

资源简介：

StorySeek数据集包含超过1000个用户故事（USs），每个故事都有对应的目标、项目背景信息以及影响映射（IM）的相关元素。该数据集通过半自动化构建方法生成，旨在评估目标驱动的需求获取任务，并可用于潜在的工业应用。

The StorySeek dataset comprises over 1,000 user stories (USs), each associated with its corresponding objectives, project background information, and relevant elements of Impact Mapping (IM). Constructed via a semi-automated method, this dataset is designed to evaluate goal-driven requirements elicitation tasks and can be utilized for potential industrial applications.

提供机构：

同济大学

创建时间：

2025-03-17

搜集汇总

数据集介绍

构建方式

StorySeek数据集的构建采用了半自动化的方法，结合了真实世界的敏捷项目数据。首先，从NEODATASET中筛选出10个代表性的GitLab项目，这些项目均采用敏捷开发方法。随后，通过GPT-4o模型对原始数据进行预处理，生成IM-Result和Project-Info，并强制使用结构化的JSON格式。最终，从JSON格式中提取出结构化数据，构建了包含1,005条记录的StorySeek数据集。每条记录均包含目标、参与者、影响、交付物和用户故事等关键元素，确保了数据的多样性和一致性。

使用方法

StorySeek数据集的使用方法主要围绕需求工程中的目标驱动需求获取任务展开。研究人员可以通过该数据集评估多代理系统在生成用户故事时的表现，尤其是其在目标分解和需求扩展方面的能力。数据集中的每条记录均可用于验证生成用户故事的真实性和质量，通过FHR和QuACE指标进行自动化评估。此外，StorySeek还可用于探索潜在需求，帮助利益相关者发现未明确表达的需求。通过结合多代理系统和CoT推理技术，StorySeek为需求工程领域的研究和工业应用提供了强有力的支持。

背景与挑战

背景概述

StorySeek数据集由同济大学的Xinkai Zou、Yan Liu、Xiongbo Shi以及上海商学院的Chen Yang等研究人员于2025年提出，旨在支持敏捷开发中的需求获取（Requirements Elicitation, RE）任务。该数据集包含超过1,000条用户故事（User Stories, USs），每条故事均与特定的业务目标和项目背景信息相关联。StorySeek的构建基于Impact Mapping（IM）框架，通过半自动化的方式生成，旨在解决从业务目标到用户故事的长链条需求获取问题。该数据集的推出填补了现有研究中功能需求获取与用户故事生成之间的空白，并为基于小规模语言模型（sLLMs）的需求获取工具提供了评估基准。StorySeek不仅推动了需求工程领域的自动化研究，还为敏捷开发中的需求对齐和潜在需求挖掘提供了新的研究方向。

当前挑战

StorySeek数据集在构建和应用过程中面临多重挑战。首先，需求获取领域本身具有高度复杂性，尤其是在敏捷开发环境中，需求漂移和快速迭代使得需求对齐变得尤为困难。StorySeek试图通过IM框架将业务目标与用户故事对齐，但这一过程容易受到主观假设和反馈延迟的影响，导致需求与实现之间的不一致性。其次，数据集的构建依赖于半自动化方法，尽管通过GPT-4等模型生成了大量数据，但如何确保生成内容的准确性和一致性仍是一个关键问题。此外，由于涉及敏感的业务数据，如何在保证数据隐私的前提下高效利用小规模语言模型（sLLMs）也是一个重要挑战。最后，StorySeek的评估指标（如FHR和QuACE）虽然提供了量化的评估方法，但其自动化评估的准确性与人类专家的对齐度仍需进一步验证。

常用场景

经典使用场景

StorySeek数据集在敏捷开发环境中被广泛用于支持需求获取（Requirements Elicitation, RE）任务，特别是在目标驱动的需求分析中。通过结合Impact Mapping框架，StorySeek能够帮助开发团队从业务目标出发，逐步分解并生成用户故事（User Stories, USs）。该数据集包含超过1,000个用户故事及其对应的业务目标和项目背景信息，为研究人员和从业者提供了一个标准化的评估工具，用于验证自动化需求获取工具的性能。

解决学术问题

StorySeek数据集解决了敏捷开发中需求获取的复杂性和主观性问题。传统的需求获取方法通常依赖于人工访谈和文档分析，耗时且容易受到主观偏见的影响。StorySeek通过提供结构化的用户故事和业务目标映射，帮助研究人员开发自动化工具，减少人工干预，提高需求获取的效率和准确性。此外，该数据集还支持对生成用户故事的真实性和一致性进行评估，解决了需求与业务目标之间的对齐问题。

实际应用

在实际应用中，StorySeek数据集被用于支持敏捷开发团队的需求获取过程。通过使用该数据集，团队可以快速生成与业务目标一致的用户故事，减少需求漂移的风险。此外，StorySeek还被用于训练和评估基于小型语言模型（sLLMs）的多代理系统，帮助企业在保证数据隐私的同时，实现高效的需求获取和分解。该数据集的应用不仅提升了需求获取的效率，还为敏捷开发中的需求管理提供了新的解决方案。

数据集最近研究