DevNous

Name: DevNous
Creator: 希腊国际大学计算机、信息与电信工程学院; 欧洲委员会DG信息部
Published: 2025-08-12 17:08:29
License: 暂无描述

arXiv2025-08-12 更新2025-08-14 收录

下载链接：

https://doi.org/10.5281/zenodo.16755864

下载链接

链接失效反馈

官方服务：

资源简介：

DevNous数据集由希腊国际大学计算机、信息与电信工程学院和欧洲委员会DG信息部创建，旨在解决现代IT项目管理中非结构化团队对话与结构化项目管理文档之间的转换问题。该数据集包含160个真实的交互式对话轮次，每个对话轮次都经过人工标注，并公开可用。数据集用于评估DevNous系统，一个基于大型语言模型（LLM）的多智能体专家系统，该系统能够自动将非结构化对话转换为结构化项目数据。DevNous数据集为评估这类交互式智能体提供了一个全面的评估框架和实证基线。

提供机构：

希腊国际大学计算机、信息与电信工程学院; 欧洲委员会DG信息部

创建时间：

2025-08-12

搜集汇总

数据集介绍

构建方式

DevNous数据集的构建基于一个创新的多智能体系统，该系统通过模拟真实团队对话环境生成160轮交互式对话。研究团队采用合成生成代理（SGA）技术，利用先进的大语言模型Claude-Sonnet 3.7模拟开发团队的动态对话场景。每条对话均经过人工标注，采用多标签标注方案，确保数据质量与真实性。数据集特别关注项目管理中的核心场景，如任务创建、进度更新等，以反映实际项目管理的复杂性与多样性。

使用方法

该数据集主要用于评估基于大语言模型的多智能体系统在项目管理中的应用效果。研究人员可通过分析模型在对话分类、任务创建和进度总结等任务上的表现，验证系统的准确性和实用性。使用时应遵循数据集的路径依赖性特点，按顺序处理对话轮次，以保持上下文连贯性。数据集支持多种评估指标，包括精确匹配准确率和多集F1分数，适用于对比不同架构的智能体系统性能。

背景与挑战

背景概述

DevNous数据集由Stavros Doropoulos等人于2025年提出，旨在解决信息技术项目管理中非结构化团队对话与结构化项目治理之间的关键瓶颈。该数据集由160条模拟对话组成，每条对话均经过人工标注，包含多标签的真实意图分类，为基于大型语言模型的多智能体系统在项目管理中的应用提供了首个实证基准。数据集由国际希腊大学与欧盟委员会信息总署联合开发，通过模拟生成代理（SGA）技术创建了生态效度良好的交互式对话场景。其核心贡献在于验证了环境管理智能体的架构模式，并为这一新兴领域建立了可复现的评估框架。

当前挑战

DevNous数据集面临的主要挑战体现在两个维度：领域问题层面需解决非正式对话到结构化项目工件的复杂映射，包括意图识别模糊性、多轮工作流状态维护等自然语言理解难题；构建过程中需克服真实团队对话数据获取的隐私壁垒，通过合成数据生成技术平衡生态效度与数据规模。具体挑战包括：1)对话中隐含任务与社交内容的区分；2)路径依赖型交互的标注一致性；3)跨话轮语境保持；4)项目管理术语的领域适应。这些挑战通过分层多智能体架构和混合记忆机制得到部分缓解，但仍在边缘案例处理上存在改进空间。

常用场景

经典使用场景

DevNous数据集在自然语言处理与项目管理交叉领域具有显著价值，其核心应用场景为解析非结构化团队对话并生成结构化项目管理工件。该数据集通过160轮模拟对话的标注数据，为基于LLM的多智能体系统提供了基准测试环境，特别适用于验证智能体在任务形式化、进度摘要生成等场景中的意图识别与状态保持能力。对话数据覆盖了任务创建、上下文更新、工作流响应等典型交互模式，为研究团队协作中的语义鸿沟问题提供了标准化实验平台。

解决学术问题

该数据集有效解决了项目管理中非正式对话与结构化需求之间的转化难题，为三个关键学术问题提供研究基础：一是验证多智能体架构在复杂工作流中的协调效率，其81.3%的精确匹配准确率为分布式决策研究设立新基准；二是建立了首个针对聊天式项目管理场景的评估框架，通过多标签标注方案量化了智能体在模糊语境下的决策质量；三是为LLM在动态环境中的状态保持能力研究提供数据支持，其包含的跨话轮依赖关系揭示了长期记忆机制的设计挑战。

实际应用

在实际IT项目管理中，DevNous数据集支撑的智能体系统可显著降低管理开销。其典型应用包括：自动化从Slack/MS Teams等聊天平台提取任务需求，减少人工录入错误；实时分析敏捷会议的对话流生成迭代报告；通过上下文感知的对话监控预测项目风险。欧洲某分布式团队案例显示，采用该技术的团队在需求追溯效率上提升47%，同时将每日管理耗时从2.1小时缩减至0.5小时，验证了数据集指导下的系统在真实场景的适用性。

数据集最近研究