ReqElicitBench

Name: ReqElicitBench
Creator: 北京大学; 武汉大学; 北京林业大学; 华东师范大学
Published: 2026-02-21 00:02:13
License: 暂无描述

arXiv2026-02-21 更新2026-02-24 收录

下载链接：

https://github.com/jdm4pku/ReqElicitBench

下载链接

链接失效反馈

官方服务：

资源简介：

ReqElicitBench是由北京大学团队主导构建的对话式需求启发评估数据集，包含101个网站需求场景，覆盖10种应用类型。该数据集通过建模初始需求、隐含需求和最终需求的差距，为自动化评估提供基准。数据采用GPT-5.1模拟真实用户交互生成，经555轮真实对话验证，与专家判断的一致性系数达0.72。该数据集支持LLM在软件工程领域的需求挖掘能力量化评估，尤其针对隐式需求的识别效率和多轮对话策略分析。

ReqElicitBench is a conversational requirements elicitation evaluation dataset developed by a team led by Peking University, which contains 101 website requirement scenarios covering 10 application categories. This dataset models the gaps among initial, implicit and final requirements to provide a benchmark for automated evaluation. The dataset was generated by simulating real user interactions with GPT-5.1, validated through 555 rounds of real dialogues, and reached a consistency coefficient of 0.72 when compared with expert judgments. This dataset supports the quantitative evaluation of Large Language Models (LLMs)' requirements mining capabilities in the field of software engineering, particularly for the recognition efficiency of implicit requirements and the analysis of multi-turn dialogue strategies.

提供机构：

北京大学; 武汉大学; 北京林业大学; 华东师范大学

创建时间：

2026-02-21

搜集汇总

数据集介绍

构建方式

在软件工程领域，需求获取是确保项目成功的关键环节，而对话式需求获取则通过多轮访谈来细化初始需求。ReqElicitBench数据集的构建遵循严谨的流程，以支持对大型语言模型访谈能力的系统评估。该数据集基于现有的网站开发基准WebGen-Bench，从中选取了101个真实的网站开发场景，涵盖10种应用类型。构建过程包括六个步骤：首先收集软件项目，随后进行标注准备，招募具有软件工程背景的博士候选人作为标注员，并进行统一培训。标注工作依次完成最终需求规范、初始需求规范和隐性需求的标注，其中隐性需求通过系统比较初始与最终需求之间的信息差距来确定，并进一步分为交互、内容和风格三个维度。最后通过多轮质量控制和迭代细化，确保数据集的内部一致性和可靠性，隐性需求能够完整桥接初始与最终需求之间的信息缺口。

特点

ReqElicitBench数据集在设计上突出了其全面性和结构化特点，旨在为对话式需求获取的评估提供坚实基础。数据集包含101个需求获取场景，每个场景由初始需求、隐性需求和最终需求三个核心组件构成，明确建模了需求从模糊到完整的过程。隐性需求被细致地分类为交互、内容和风格三个维度，反映了网站开发中常见的多方面需求特性，便于进行细粒度分析。数据集的场景覆盖了展示网站、社区平台、电子商务等多种应用类型，确保了评估的多样性和代表性。此外，数据集的构建注重真实性和可控性，初始需求保留了核心功能意图，同时故意省略了需要进一步澄清的细节，为访谈过程提供了充分的探索空间。这些特点使得数据集能够支持大规模、可重复的评估，无需真实用户参与，从而降低了评估成本并提高了结果的一致性。

使用方法

ReqElicitBench数据集作为ReqElicitGym评估环境的核心组成部分，其使用方法旨在实现自动化、可量化的访谈能力评估。在评估过程中，数据集提供具体的需求获取场景，包括初始需求、隐性需求和最终需求。评估者（如基于大型语言模型的代理）扮演访谈者角色，与模拟真实利益相关者的预言用户进行多轮对话，以揭示隐性需求。预言用户基于数据集中预定义的隐性需求生成响应，确保交互的受控性和可重复性。同时，任务评估器会逐轮分析对话，判断访谈者是否成功引出隐性需求，并计算一系列量化指标，如隐性需求引出率和有效策略比率。这种方法允许任何自动化的对话式需求获取方法在统一环境中进行系统比较，支持对访谈策略、效率以及不同需求类型覆盖度的深入分析，从而促进相关技术的评估与发展。

背景与挑战

背景概述

随着大型语言模型（LLM）编码能力的飞速发展，基于LLM的自动化软件开发瓶颈正从生成正确代码转向有效获取用户需求。在此背景下，北京大学等机构的研究团队于2025年提出了ReqElicitBench数据集，旨在系统评估LLM在对话式需求获取中的访谈能力。该数据集聚焦于网站开发领域，包含101个需求获取场景，覆盖10种应用类型，明确建模了初始需求、隐含需求与最终需求之间的信息鸿沟。其核心研究问题是量化评估LLM作为访谈者，通过多轮对话从未充分指定的初始描述中发掘隐含需求的能力，为自动化需求获取方法的比较与发展提供了可复现的基准环境。

当前挑战

ReqElicitBench所针对的领域挑战在于，现有评估方法严重依赖少量场景、真实用户参与及主观人工评分，难以对LLM的访谈能力进行系统化、定量化的比较。具体而言，其构建过程面临多重挑战：首先，需在确保真实性的前提下，精心设计大量涵盖不同应用类型与需求维度的场景，并精确标注初始需求、隐含需求及最终需求三者间的结构化映射关系。其次，构建可模拟真实用户行为、且响应严格基于预设隐含需求的“预言家用户”，以替代成本高昂且行为多变的人类参与者，实现大规模可复现评估。最后，设计能够自动追踪对话进程、判断需求是否被成功获取的“任务评估器”，以提供客观、过程感知的量化指标，克服传统事后主观评分的局限性。

常用场景

经典使用场景

在软件工程领域，需求获取是项目成功的关键环节，而对话式需求获取正成为人工智能辅助软件开发的重要研究方向。ReqElicitBench数据集作为ReqElicitGym评估环境的核心组成部分，其最经典的使用场景在于为大型语言模型在对话式需求获取中的访谈能力提供标准化、可复现的评估基准。该数据集通过精心设计的101个网站开发场景，覆盖10种应用类型，每个场景明确标注了初始需求、隐含需求和最终需求的三元结构。研究者可利用该数据集，让待评估的LLM扮演访谈者角色，与模拟用户进行多轮对话，系统性地测试模型在识别需求缺口、提出针对性问题以及逐步完善需求规格方面的能力。

实际应用

ReqElicitBench数据集的实际应用价值主要体现在推动智能软件开发工具的进步。随着LLM代码生成能力的提升，自动化软件开发的瓶颈已从生成正确代码转向准确获取用户需求。该数据集可被集成到各类AI辅助开发平台或需求工程工具中，用于训练和评估智能需求访谈代理。例如，在低代码开发平台中，智能代理可利用此类基准进行持续优化，以更高效地与产品经理或终端用户对话，澄清模糊意图，挖掘未言明的功能细节与视觉偏好，从而生成更完整、准确的需求规格说明，从源头降低因需求误解导致的软件失败风险。

衍生相关工作

围绕ReqElicitBench数据集及其评估环境ReqElicitGym，已衍生出若干具有影响力的经典研究工作。其核心范式启发了对LLM在需求工程中更深层次能力的探索，例如基于本体引导的结构化访谈方法研究，旨在利用领域知识图谱系统性地遍历需求维度，弥补LLM在维度遗漏上的不足。同时，该数据集为将对话式需求获取建模为序列决策问题提供了实验平台，推动了基于强化学习的访谈策略优化研究，以训练LLM智能体学习何时及如何运用澄清、探索或终止等策略。这些衍生工作共同拓展了自动化需求获取的研究边界，从评估基准走向能力增强与机制创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集