UStAI Dataset

Name: UStAI Dataset
Creator: 沙特国王阿卜杜拉大学
Published: 2025-04-01 16:03:40
License: 暂无描述

arXiv2025-04-01 更新2025-04-07 收录

下载链接：

https://github.com/asmayamani/EthicsRequirementsData

下载链接

链接失效反馈

官方服务：

资源简介：

UStAI数据集是由沙特国王阿卜杜拉大学的Asma Yamani等人创建的，包含1260个用户故事，这些故事是基于学术文章摘要中的AI组件描述生成的。该数据集旨在促进AI系统需求的研究，尤其是利用大型语言模型（LLM）生成用户故事。数据集涵盖了26个领域的42篇摘要，并通过三种LLM模型生成用户故事，旨在服务于AI系统的早期需求获取阶段，同时考虑了非功能需求和伦理原则。

The UStAI Dataset was created by Asma Yamani and colleagues from King Abdullah University of Science and Technology, comprising 1260 user stories generated based on descriptions of AI components extracted from academic article abstracts. This dataset is intended to facilitate research on AI system requirements, especially the generation of user stories using Large Language Models (LLMs). The dataset covers 42 abstracts spanning 26 different domains, with the user stories generated using three distinct LLM models. It is designed to support the early requirements elicitation phase of AI systems while also accounting for non-functional requirements and ethical principles.

提供机构：

沙特国王阿卜杜拉大学

创建时间：

2025-04-01

搜集汇总

数据集介绍

构建方式

UStAI数据集的构建基于学术论文摘要，利用大型语言模型（LLMs）生成用户故事。研究团队从42篇涵盖26个领域的学术论文中选取摘要，并采用三种不同的LLMs（Gemini 1.5 Flash、ChatGPT o1-mini和Llama 3.1 70b）生成1260条用户故事。每条用户故事均通过Quality User Story (QUS)框架进行质量评估，并标注了非功能性需求（NFRs）和伦理原则。

特点

UStAI数据集的特点在于其多样性和高质量标注。数据集涵盖了多个领域的AI系统需求，每条用户故事均经过严格的QUS框架评估，确保其语法、语义和实用性质量。此外，数据集还标注了NFRs和伦理原则，为研究AI系统的伦理和社会责任提供了丰富的数据支持。数据集的多样性和高质量标注使其成为研究AI系统需求工程的宝贵资源。

使用方法

UStAI数据集可用于多种研究目的，包括AI系统需求工程、伦理需求分析以及NFRs的提取和优先级排序。研究人员可以利用该数据集评估不同LLMs在生成用户故事方面的性能，或作为训练数据开发自然语言处理（NLP）模型，用于需求质量评估、冲突检测和模糊性识别等任务。此外，数据集还可用于探索AI系统中的伦理问题及其解决方案。

背景与挑战

背景概述

UStAI数据集由沙特法赫德国王石油与矿业大学的Asma Yamani、Malak Baslyman和Moataz Ahmed于2025年创建，旨在解决人工智能系统需求工程中高质量用户故事生成的问题。该数据集通过大型语言模型（LLMs）从学术论文摘要中生成用户故事，涵盖了26个领域的42篇论文摘要，生成了1260条用户故事，并基于质量用户故事（QUS）框架进行了评估。UStAI的推出填补了人工智能系统需求工程领域公开数据集的空白，为研究人员和从业者提供了宝贵的资源，推动了需求自动生成和评估技术的发展。

当前挑战

UStAI数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决人工智能系统需求工程中用户故事生成的多样性和质量问题，包括如何确保生成的用户故事涵盖功能性需求、非功能性需求（NFRs）以及伦理原则。在构建过程中，挑战包括如何从学术论文摘要中提取高质量的用户故事、如何评估和标注生成的故事以满足QUS框架的标准，以及如何确保数据集的多样性和代表性，覆盖多个领域和利益相关者的视角。此外，数据集的构建还需要解决LLMs生成内容中的模糊性、冲突和依赖性等问题。

常用场景

经典使用场景

UStAI数据集在人工智能系统需求工程领域具有广泛的应用价值，尤其在早期需求获取阶段。该数据集通过大语言模型（LLMs）从学术论文摘要生成用户故事，为研究人员和从业者提供了一个多样化的需求样本库。这些用户故事覆盖了26个不同领域，涉及多种利益相关者视角，能够帮助研究团队快速构建需求原型，并为后续的需求分析和验证提供基础数据。数据集的高质量标注（如QUS框架评估、非功能性需求和伦理原则）使其成为需求工程领域的重要参考资源。

衍生相关工作

UStAI数据集已催生多个相关研究方向。在需求生成领域，研究者基于该数据集开发了改进的LLM提示工程技术；在质量评估方面，衍生出自动化QUS评估模型的研究；伦理需求分析方向则发展出基于该数据集的伦理冲突检测方法。数据集还被用于训练需求分类模型，支持功能需求与非功能需求的自动识别。这些工作共同推动了AI系统需求工程的自动化与智能化发展。

数据集最近研究