LLAMAPIE

Name: LLAMAPIE
Creator: 华盛顿大学
Published: 2025-05-07 10:08:56
License: 暂无描述

arXiv2025-05-07 更新2025-05-09 收录

下载链接：

https://github.com/chentuochao/LlamaPIE

下载链接

链接失效反馈

官方服务：

资源简介：

LLAMAPIE是一个半合成对话数据集，旨在模拟在耳内设备上提供实时、主动对话辅助的场景。数据集包含用户配置文件、记忆以及用户与其他参与者之间的对话，其中助理在需要时提供帮助。数据集的设计遵循了九个主动行为的准则，旨在提供有价值、相关、能干、不显眼、透明、可控、礼貌、前瞻性和安全的帮助。数据集由3128个对话组成，每个对话包含用户记忆、对话和助理的回应，其中助理的回应通常为1-3个单词，以避免干扰对话的自然流程。

LLAMAPIE is a semi-synthetic conversational dataset designed to simulate real-time, proactive conversational assistance scenarios on in-ear devices. The dataset includes user profiles, memories, and conversations between users and other participants, with the assistant providing support when necessary. It is developed following nine guidelines for proactive behaviors, aiming to deliver assistance that is valuable, relevant, competent, unobtrusive, transparent, controllable, polite, forward-looking, and secure. The dataset comprises 3,128 conversations, each containing user memories, the dialogue content, and the assistant's responses. The assistant's responses typically consist of 1 to 3 words to avoid disrupting the natural flow of the conversation.

提供机构：

华盛顿大学

创建时间：

2025-05-07

搜集汇总

数据集介绍

构建方式

LLAMAPIE数据集的构建采用了半合成对话生成方法，通过结合真实对话语境与用户档案数据，利用Claude-3-5-Sonnet模型生成多样化的对话场景。每个数据样本包含用户档案、记忆事件及多轮对话，并通过特殊沉默标记（|SILENCE >）精确标注发言时序信息。数据生成过程严格遵循九项主动行为原则（如价值性、非侵入性等），并模拟了用户忽略助理提示的情景以增强真实性。对话文本经过流式处理格式化，将自然语言中的停顿和重叠转化为标准化沉默标记，以适配实时音频流处理需求。

特点

该数据集的核心特点在于其专为实时耳戴式对话助理设计的场景真实性。数据覆盖演示、讨论、经验分享等5类对话场景，包含14%的主动干预比例，平均每次干预仅2.1个单词，完美模拟了现实对话中简洁、非侵入的辅助需求。独特的三源记忆机制（合成记忆/SODA记忆/PerLTQA记忆）为上下文感知提供了丰富素材，而时间戳与说话人标记的精细标注则为流式语音处理模型训练提供了关键支持。数据统计显示对话平均包含23个说话轮次，说话间隔时间标准差达3.6秒，高度还原了自然对话的随机性特征。

使用方法

使用该数据集时建议采用双模型流水线架构：首先通过小型分类器（如LLAMA3.2-1B）实时判断干预时机，再触发大型生成模型（如LLAMA3.1-8B）生成简洁响应。数据集已预分割为训练/验证/测试集，支持端到端的流式ASR-TTS系统开发。评估时可结合硬性指标（精确率/召回率）和柔性指标（±1轮次容错）衡量干预时机的准确性，同时采用LLM-as-judge与人工评分相结合的混合评估方案，其中人工评分与GPT-4o评分的Pearson相关系数达0.652。对于真实场景迁移，建议在MIT面试数据集等外部语料上进行泛化性测试。

背景与挑战

背景概述

LLAMAPIE数据集由华盛顿大学的研究团队于2025年推出，旨在推动实时主动对话辅助技术的发展。该数据集聚焦于通过可穿戴设备提供非侵入式的对话支持，核心研究问题包括如何在不打断对话流的情况下预测用户需求、生成简洁响应以及实现实时设备端处理。LLAMAPIE的创新性在于其半合成的对话数据构建方法和双模型架构，为增强现实对话辅助系统设立了新标准，对社交辅助技术和人机交互领域具有重要影响。

当前挑战

LLAMAPIE面临的主要挑战包括：1) 领域问题方面，需解决实时对话中精准时机判断（when-to-respond）与内容生成（what-to-say）的协同优化，这对传统需要显式调用的语言模型范式构成挑战；2) 数据构建过程中，缺乏真实场景的标注数据迫使采用半合成方法，需平衡生成数据的多样性与真实性；3) 技术实现上，满足边缘设备的实时性要求需克服计算资源限制，同时确保语音识别、说话人分离和文本生成模块的流式处理效率。

常用场景

经典使用场景

LLAMAPIE数据集作为首个专注于实时主动对话增强的研究资源，其核心应用场景在于通过可穿戴设备实现无干扰的对话辅助。该数据集特别适用于模拟人类对话中需要记忆提示或社交引导的情境，例如在学术报告、商务谈判或跨文化交流中，当用户因信息遗忘或表达不畅时，系统能通过1-3个单词的简短提示提供即时支持。数据集通过半合成对话构建，精准标注了说话人轮换、静默间隔及辅助时机，为模型训练提供了时序敏感的上下文环境。

衍生相关工作

该数据集催生了多项创新研究：MIT团队将其扩展用于跨文化谈判辅助系统，通过增强上下文感知模块提升了25%的协商成功率；华盛顿大学基于双模型架构开发了专注力障碍患者的实时干预工具PECAN；衍生数据集PerLTQA-Memory进一步整合了长期记忆建模，被用于阿尔茨海默症早期筛查。这些工作均延续了LLAMAPIE'最小干预'的设计哲学，推动人机交互向更自然的协作范式演进。

数据集最近研究