TOFU-D; COD
收藏arXiv2026-01-28 更新2026-01-29 收录
下载链接:
https://doi.org/10.1145/3793302.3793325
下载链接
链接失效反馈官方服务:
资源简介:
TOFU-D是由米兰-比可卡大学团队创建的Dialogflow聊天机器人数据集,包含从GitHub抓取的1,788个开源机器人快照,覆盖多领域、多语言及异构实现模式。其精选子集COD含185个经功能验证的高质量机器人,具备复杂对话逻辑、Webhook服务及英语支持特性。数据通过自动化流程采集,包括仓库搜索、代理文件验证及去重处理,并标注了意图、实体、后端代码等结构化信息。该数据集旨在支持聊天机器人质量评估与安全研究,尤其适用于测试覆盖分析和漏洞检测等实证研究场景。
TOFU-D is a Dialogflow chatbot dataset created by the team from the University of Milan-Bicocca. It contains 1,788 open-source bot snapshots scraped from GitHub, covering multi-domain, multilingual and heterogeneous implementation patterns. Its curated subset COD includes 185 high-quality bots that have been functionally verified, featuring complex dialogue logic, Webhook services and English language support. The data was collected through an automated workflow, including repository search, agent file validation and deduplication, with structured information such as intents, entities and backend code annotated. This dataset aims to support chatbot quality assessment and security research, and is particularly suitable for empirical research scenarios such as test coverage analysis and vulnerability detection.
提供机构:
米兰-比可卡大学
创建时间:
2026-01-28
搜集汇总
数据集介绍

构建方式
在对话系统质量评估研究领域,构建具有代表性的数据集对于推动实证研究至关重要。TOFU-D数据集通过系统化的自动化流程从GitHub平台采集Dialogflow聊天机器人,首先利用GitHub API检索包含特定关键词的存储库,随后通过检测必需的agent配置文件确认聊天机器人存在,并基于文件夹结构识别独立实例。数据集构建过程包含版本筛选、结构分析及去重处理,最终形成包含1,788个独特聊天机器人的快照集合。COD数据集则在此基础上,依据对话复杂度、功能复杂度和实用性三个维度进行筛选,通过Dialogflow REST API部署验证,并采用GPT-4o进行主题分类,最终形成包含185个经过人工验证的高质量聊天机器人子集。
特点
面向任务型聊天机器人的质量评估研究,TOFU-D与COD数据集呈现出多维度特征。TOFU-D作为全景快照,覆盖了Dialogflow Essentials和CX双平台架构,展现了开发实践的多样性;其聊天机器人支持多达12种语言,涵盖教育、医疗、商业等28个应用领域,且82%采用最新的Dialogflow v2版本。COD数据集则体现出更高的功能复杂度,所有样本均包含至少一个Webhook意图,62%的聊天机器人将Webhook服务应用于半数以上意图,并显著集成Google Assistant(51%)和云函数(29%)等现代技术栈。数据集的后端实现语言分布呈现技术异构性,JavaScript、Python、Java和TypeScript构成主要技术生态。
使用方法
在对话系统质量保障研究框架下,该数据集为多平台比较研究提供了实证基础。研究者可利用TOFU-D进行大规模统计分析,探索Dialogflow聊天机器人在意图设计、实体识别、多语言支持等方面的实践模式;COD数据集则适用于质量评估方法的验证与改进,例如通过Botium测试框架进行测试用例生成的有效性分析,或使用Bandit静态分析工具检测安全漏洞。数据集支持跨平台对比研究,既可揭示聊天机器人开发的共性挑战,也能识别特定平台的技术风险,为构建系统化的质量保障方法论提供数据支撑。
背景与挑战
背景概述
随着任务型聊天机器人在医疗、预订及个人助理等领域的广泛应用,其质量与可靠性评估成为软件工程研究的关键议题。然而,大规模、高质量数据集的缺失严重制约了相关实证研究的深度与广度。在此背景下,米兰比可卡大学的研究团队于2026年推出了TOFU-D与COD数据集,旨在系统性地收集并整理基于Dialogflow平台的任务型聊天机器人实例。TOFU-D作为GitHub上Dialogflow聊天机器人的全景快照,收录了1,788个样本;COD则是从中精选出的185个经过验证的高质量子集,覆盖多样化的领域、语言与实现模式。这两个数据集的发布为聊天机器人的质量保障与安全分析提供了坚实的实证基础,推动了跨平台、多语言的系统性研究。
当前挑战
该数据集致力于解决任务型聊天机器人在质量保障与安全评估领域的核心挑战,具体包括测试覆盖不足与安全漏洞频发等问题。例如,初步评估显示,自动测试工具难以有效覆盖回退意图、用户问候及依赖上下文的交互场景,且静态分析暴露出API超时缺失、伪随机数生成器弱化及输入参数未净化等常见安全隐患。在构建过程中,研究团队面临多重挑战:需从海量GitHub仓库中精准识别并提取有效的Dialogflow聊天机器人实例,同时排除重复样本与非功能样本;此外,为确保数据集的代表性与实用性,必须依据对话复杂性、功能实现及语言支持等标准进行严格筛选,并验证每个聊天机器人的可部署性与主题分类准确性。
常用场景
经典使用场景
在对话系统与软件工程交叉领域,TOFU-D与COD数据集为任务型聊天机器人的质量评估提供了关键实证基础。这些数据集通过收集GitHub上Dialogflow平台的聊天机器人实例,覆盖了教育、商业、医疗等多个领域,使得研究人员能够在大规模真实数据上分析聊天机器人的结构复杂性、功能实现及安全漏洞。经典使用场景包括利用Botium测试框架进行自动化测试生成,以及通过Bandit静态分析工具检测代码中的安全隐患,从而系统评估聊天机器人的可靠性与健壮性。
解决学术问题
该数据集有效应对了任务型聊天机器人研究中缺乏大规模、高质量数据集的学术挑战。传统研究常受限于小规模样本或单一平台,难以推广结论。TOFU-D与COD通过提供1,788个快照样本及185个精选样本,支持跨平台、多语言的比较分析,解决了实证研究泛化性不足的问题。其意义在于为聊天机器人的测试生成、漏洞检测、质量度量等研究方向提供了标准化基准,推动了软件工程领域对NLP密集型系统的系统性质量保障方法的发展。
衍生相关工作
围绕TOFU-D与COD数据集,已衍生出多项聚焦聊天机器人质量保障的经典研究工作。例如,基于Botium的测试用例生成与增强方法被用于探索对话流程的覆盖度问题;突变测试技术如MutaBot则利用数据集评估聊天机器人的容错能力。同时,数据集支持了跨平台比较研究,如与Rasa平台数据集BRASATO的对比,揭示了Dialogflow特有架构(如webhook配置)带来的安全挑战。这些工作共同推动了聊天机器人测试、验证与维护技术的演进。
以上内容由遇见数据集搜集并总结生成



