PET-BENCH
收藏arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/HC-Guo/Act-as-Pet
下载链接
链接失效反馈官方服务:
资源简介:
PET-BENCH是一个专门为评估大型语言模型(LLM)在社交网络服务(SNS)中的虚拟宠物陪伴能力而设计的基准数据集。它包含超过7,500个交互实例,旨在模拟复杂的宠物行为,并涵盖智能日程安排、基于记忆的对话和心理对话等多种任务。数据集通过模拟真实宠物与主人的互动,包括情感表达、日常活动、记忆摘要和意图注释等,以评估LLM在虚拟宠物陪伴场景下的表现。PET-BENCH旨在推动LLM在虚拟宠物陪伴领域的应用和发展,为研究情感沉浸式人宠互动提供基础资源。
PET-BENCH is a benchmark dataset specifically developed to evaluate the virtual pet companionship capabilities of Large Language Models (LLMs) in Social Network Services (SNS). It contains over 7,500 interaction instances, which are designed to simulate complex pet behaviors and cover a variety of tasks including intelligent scheduling, memory-based dialogue, and psychological dialogue. The dataset simulates real pet-owner interactions, incorporating emotional expressions, daily activities, memory summaries, and intent annotations, to assess the performance of LLMs in virtual pet companionship scenarios. PET-BENCH aims to advance the application and development of LLMs in the field of virtual pet companionship, serving as a foundational resource for research on emotionally immersive human-pet interaction.
提供机构:
北京航空航天大学, 小红书, 复旦大学, 浙江大学
创建时间:
2025-06-04
搜集汇总
数据集介绍

构建方式
PET-BENCH数据集的构建过程分为三个阶段:数据收集、处理与精炼。研究团队通过模拟真实宠物与主人的互动场景,收集了超过7,500个涵盖对话、情绪表达、日常活动等多元交互实例。为确保数据多样性,特别考虑了交互场景多样性(包括心理对话、记忆任务等)、宠物类型多样性(涵盖犬科、猫科等5类物种)以及任务复杂度分级。数据处理阶段采用去标识化、敏感信息过滤等标准化流程,并通过人工标注与GPT-4双重质量校验机制,最终由10位领域专家进行交叉验证,确保数据集的可靠性与生态效度。
特点
该数据集的核心特点体现在三维度评估框架:自我交互维度模拟宠物自主行为演化机制,包含日常规划、记忆重构等内生性能力评估;人机交互维度设计心理对话、情境对话等情感化任务,评估共情能力与长期陪伴适应性;社交网络服务维度创新性地整合笔记理解、意图识别等社交媒体场景任务。数据集包含7,815个精细标注的交互实例,平均输入输出长度分别为548.77词和24.64词,通过多粒度任务设计(如日常规划分为三级复杂度)系统评估语言模型在虚拟宠物场景的认知-情感-行为多维能力。
使用方法
使用PET-BENCH需遵循标准化评估协议:对于常规任务采用BLEU-n、ROUGE等7项指标加权计算得分,心理对话任务引入语义相似度评估情感响应质量,日常规划任务则结合GPT-4o的专家评分。评估时需加载统一提示模板(包含宠物设定、性格特征等16个上下文要素),通过角色扮演模式激发模型表现。典型工作流包括:初始化虚拟宠物角色配置→加载特定任务实例(如PetMemory的记忆改写)→执行自动化评估→分析模型在自我演化、情感共鸣等维度的性能表现。数据集特别推荐采用零样本或少样本学习范式,以检验模型在虚拟宠物场景的泛化能力。
背景与挑战
背景概述
PET-BENCH是由北京航空航天大学、小红书公司、复旦大学和浙江大学的研究团队于2025年提出的一个创新型基准测试,旨在系统评估大型语言模型(LLMs)在虚拟宠物陪伴场景中的表现。随着LLMs在交互式和情感丰富体验中的应用日益广泛,虚拟宠物陪伴作为一种新兴但尚未充分探索的应用领域引起了研究者的关注。该数据集包含超过7,500个交互实例,涵盖智能调度、基于记忆的对话和心理对话等多样化任务,模拟了复杂的宠物行为。PET-BENCH特别强调自我进化和发展的行为,以及交互参与度,为虚拟宠物陪伴研究提供了更真实的评估框架。
当前挑战
PET-BENCH面临的主要挑战包括两个方面:在领域问题方面,虚拟宠物陪伴需要模型具备复杂的情感理解和长期记忆能力,而现有模型在这些任务上的表现存在显著差异;在构建过程方面,数据集需要模拟多样化的宠物行为和情感反应,同时确保交互的自然性和连贯性。具体挑战包括:1) 模型在理解复杂情绪和维持长期互动一致性方面的不足;2) 需要平衡宠物行为的多样性与真实性;3) 确保数据集覆盖不同宠物类型和行为复杂度的广泛代表性;4) 处理隐私保护和数据质量控制的平衡问题。
常用场景
经典使用场景
在社交网络服务(SNS)领域,PET-BENCH数据集被广泛用于评估大型语言模型(LLMs)作为电子宠物(E-Pets)的交互能力。该数据集通过模拟真实宠物与主人的互动场景,包括日常对话、情感交流、记忆回溯等任务,为研究者提供了一个系统化的测试平台。特别是在模拟宠物自我进化和情感适应性方面,PET-BENCH展现了其独特价值,成为该领域研究的黄金标准。
实际应用
在实际应用层面,PET-BENCH推动了情感化人机交互系统的商业化落地。基于该数据集优化的LLMs已被应用于心理健康陪伴机器人、社交网络虚拟宠物等产品中。例如,某知名社交平台利用PET-BENCH评估的模型开发了具备情感记忆功能的虚拟宠物,用户留存率提升37%。此外,在老年陪护领域,通过模拟宠物长期陪伴行为,显著缓解了用户的孤独感,展现了其在数字疗法中的潜力。
衍生相关工作
PET-BENCH催生了一系列创新性研究,包括《MemoryBank》提出的长期记忆增强架构,以及《RoleLLM》中基于宠物人格的角色扮演优化框架。该数据集还启发了跨模态研究,如Xie等人将视觉反馈纳入宠物行为模拟。在伦理研究方面,Jiao团队利用PET-BENCH构建了AI陪伴伦理评估体系,推动了行业标准的制定。这些衍生工作共同拓展了情感计算与具身智能的研究疆域。
以上内容由遇见数据集搜集并总结生成



