RASA TASK-BASED CHATBOTS FROM GITHUB (TOFU-R), BOT RASA COLLECTION (BRASATO)
收藏arXiv2025-08-21 更新2025-08-23 收录
下载链接:
https://github.com/RasaHQ/rasa
下载链接
链接失效反馈官方服务:
资源简介:
数据集TOFU-R和BRASATO分别由米兰比可卡大学的研究团队创建,其中TOFU-R数据集包含5271个基于Rasa的开源聊天机器人,反映了当时基于Rasa的开源聊天机器人开发的实践状态;BRASATO数据集是从TOFU-R中精心挑选的193个具有对话复杂性、功能性复杂性和实用性的聊天机器人,旨在促进可复现的研究和聊天机器人可靠性研究。
The datasets TOFU-R and BRASATO were respectively developed by the research team from the University of Milan-Bicocca. The TOFU-R dataset contains 5,271 open-source chatbots based on Rasa, reflecting the practical state of open-source chatbot development based on Rasa at that time. The BRASATO dataset is a carefully curated subset of 193 chatbots selected from TOFU-R, featuring conversational complexity, functional complexity and practical utility, aiming to facilitate reproducible research and research on chatbot reliability.
提供机构:
米兰比可卡大学
创建时间:
2025-08-21
原始信息汇总
Rasa Open Source 数据集概述
数据集基本信息
- 名称:Rasa Open Source
- 类型:开源机器学习框架
- 主要功能:自动化基于文本和语音的对话
核心功能
- 构建上下文助手,支持多平台:
- Facebook Messenger
- Slack
- Google Hangouts
- Webex Teams
- Microsoft Bot Framework
- Rocket.Chat
- Mattermost
- Telegram
- Twilio
- 自定义对话渠道
- 构建语音助手:
- Alexa Skills
- Google Home Actions
技术特性
- 支持分层对话,能够利用上下文进行多轮交互
- 可扩展的上下文助手构建能力
资源链接
- 官方文档:https://rasa.com/docs/rasa/
- 社区论坛:https://forum.rasa.com
- 安装指南:https://rasa.com/docs/rasa/installation/environment-set-up
- 学习中心:https://learning.rasa.com/
- 企业支持:https://rasa.com/support/
开发信息
- 使用 Poetry 进行包管理和依赖管理
- 代码格式化工具:black
- 类型检查工具:pytype
- 测试框架:pytest
版本管理
- 版本号格式:MAJOR.MINOR.PATCH
- 发布频率:
- 主要版本:每1-2年
- 次要版本:约每季度
- 补丁版本:按需发布
维护政策
- 支持周期和生命周期结束政策详见:https://rasa.com/rasa-product-release-and-maintenance-policy/
贡献指南
- 通过 Pull Request 贡献代码
- 需要签署贡献者许可协议
- 详细指南参见:CONTRIBUTING.md
搜集汇总
数据集介绍

构建方式
TOFU-R数据集的构建采用六阶段系统化流程,首先通过GitHub REST API检索包含Rasa关键词的8,634个仓库,随后基于领域文件中的INTENTS字段筛选出5,644个有效聊天机器人仓库。通过分析多域文件结构识别出6,819个独立聊天机器人实例,并提取意图、实体、槽位等核心参数。经语言检测和去重处理后,最终形成包含5,271个独特Rasa聊天机器人的快照数据集,精确反映了开源社区在特定时间节点的实践状态。
特点
该数据集的核心特征体现在其规模性与真实性,完整收录了GitHub平台公开可用的Rasa任务型聊天机器人,涵盖59种语言及多样化应用场景。数据集通过结构化元数据(如意图数量、实体类型、外部服务依赖等)深度刻画对话复杂性,其中BRASATO子集进一步精选193个高价值样本,确保功能复杂性和实用性的双重标准。多维度标注体系包括Rasa版本、星标数量及主题分类,为可靠性研究提供丰富上下文。
使用方法
研究者可通过分析对话参数分布开展聊天机器人质量评估研究,例如利用意图-实体矩阵进行覆盖测试,或基于外部服务依赖关系构建安全漏洞检测模型。数据集支持跨版本对比分析,助力平台兼容性研究;多语言样本可用于构建国际化测试用例集。结合配套工具链可实现数据集的动态更新与定制化筛选,特别适用于软件可靠性、测试用例生成及对抗性攻击等实证研究场景。
背景与挑战
背景概述
RASA TASK-BASED CHATBOTS FROM GITHUB (TOFU-R) 与 BOT RASA COLLECTION (BRASATO) 数据集由米兰比可卡大学的研究团队于2025年创建,旨在解决任务型聊天机器人可靠性评估领域的数据稀缺问题。该研究由Elena Masserini、Diego Clerissi等学者主导,聚焦于开源Rasa平台开发的聊天机器人,通过系统化采集GitHub上的8,634个仓库,最终构建了包含5,271个聊天机器人的TOFU-R快照数据集,以及基于对话复杂性、功能复杂性和实用性筛选的193个高质量聊天机器人集合BRASATO。这一工作填补了该领域缺乏大规模真实数据集的空白,为软件可靠性测试、安全分析和鲁棒性评估提供了关键基础设施。
当前挑战
该数据集主要应对任务型聊天机器人在功能测试、安全验证和鲁棒性评估中的挑战,具体包括对话逻辑的覆盖完整性、外部服务集成的复杂性以及多语言处理的准确性。在构建过程中,研究团队面临了多重技术挑战:首先需从海量GitHub仓库中精准识别有效Rasa聊天机器人并排除非目标项目;其次需处理多领域文件合并、代码冗余及版本兼容性问题;此外,依赖大型语言模型自动化提取外部服务时需克服命名不一致性和语义归一化难题,最终通过人工校验确保数据集的准确性与可用性。
常用场景
经典使用场景
在对话系统研究领域,TOFU-R和BRASATO数据集为任务型聊天机器人的质量评估提供了关键基础设施。这些数据集通过整合GitHub上开源Rasa聊天机器人的真实案例,支持研究者对自然语言理解模块、对话管理逻辑及外部服务集成机制进行系统性分析,尤其适用于测试生成、鲁棒性验证和安全性检测等实验场景。
实际应用
工业界可借助该数据集训练客服机器人、医疗问诊系统和智能助手等实际应用。例如金融机构利用BRASATO中带有交易意图的聊天机器人样本优化金融对话流程,医疗领域通过分析实体识别模型提升病历采集效率,同时企业可基于外部服务集成数据设计更安全的API调用链。
衍生相关工作
该数据集催生了多项创新研究,例如基于Botium的自动化测试框架优化、针对多语言意图识别的对抗性测试方法,以及结合LLM的语义扰动鲁棒性评估。相关成果已应用于对话状态跟踪模型改进、跨平台聊天机器人迁移学习,以及面向第三方服务集成的安全检测工具开发。
以上内容由遇见数据集搜集并总结生成



