CARMEM

Name: CARMEM
Creator: 宝马集团研究与技术, 奥格斯堡大学, 慕尼黑工业大学
Published: 2025-01-17 00:37:33
License: 暂无描述

arXiv2025-01-17 更新2025-01-18 收录

下载链接：

https://github.com/johanneskirmayr/CarMem

下载链接

链接失效反馈

官方服务：

资源简介：

CARMEM数据集是由宝马集团研究与技术、奥格斯堡大学和慕尼黑工业大学联合创建的合成数据集，专为车载语音助手场景设计。该数据集包含1000个提取对话、1000个检索话语和3000个维护话语，总计5000条数据，平均每个对话包含5.08轮对话和80.78个单词。数据集的生成基于GPT-4模型，确保了对话的多样性和真实性。数据集的主要应用领域是评估车载语音助手的长期记忆系统，旨在解决用户偏好提取、存储和检索的问题，提升个性化用户体验。

The CARMEM dataset is a synthetic dataset jointly developed by BMW Group Research and Technology, the University of Augsburg, and Technical University of Munich, tailored specifically for in-vehicle voice assistant scenarios. It comprises 1000 extraction dialogues, 1000 retrieval utterances, and 3000 maintenance utterances, totaling 5000 samples. On average, each dialogue contains 5.08 conversational turns and 80.78 words. The dataset is generated using the GPT-4 model, which guarantees the diversity and authenticity of the dialogues. Its primary application is to evaluate the long-term memory systems of in-vehicle voice assistants, aiming to address challenges in user preference extraction, storage and retrieval, and ultimately improve personalized user experience.

提供机构：

宝马集团研究与技术, 奥格斯堡大学, 慕尼黑工业大学

创建时间：

2025-01-17

搜集汇总

数据集介绍

构建方式

CARMEM数据集的构建基于多轮、多会话的合成对话，旨在模拟车载语音助手的真实交互场景。数据集通过GPT-4模型生成，结合了100个用户配置文件，涵盖了年龄、技术熟练度、对话风格等多样化特征。每个用户配置文件中包含10个偏好，这些偏好从预定义的类别层次结构中均匀采样。对话生成过程中，通过动态输入（如用户偏好、对话长度等）确保数据的多样性和真实性。最终，数据集包含1,000个提取对话、1,000个检索话语和3,000个维护话语，确保了数据的丰富性和广泛适用性。

使用方法

CARMEM数据集的使用方法主要围绕其三个核心组件：偏好提取、维护和检索。在偏好提取阶段，系统通过LLM函数调用从对话中提取用户偏好，并将其存储在预定义的类别层次结构中。在维护阶段，系统通过比较新提取的偏好与现有偏好，执行追加、更新或忽略操作，确保存储的偏好一致且无冗余。在检索阶段，系统通过语义检索从存储中提取与当前用户话语相关的偏好，提供个性化的响应。数据集的使用场景主要集中在车载语音助手的长期记忆系统开发，适用于工业应用中的个性化交互系统。

背景与挑战

背景概述

CARMEM数据集由BMW集团研究与技术部门、奥格斯堡大学和慕尼黑工业大学的研究团队于2025年提出，旨在解决车载语音助手在长期记忆和个性化交互中的挑战。该数据集基于真实行业数据，模拟了多轮、多会话的车载语音助手对话场景，专注于用户偏好的提取、存储和检索。通过引入基于类别的偏好记忆系统，CARMEM数据集为语音助手提供了结构化的记忆管理方案，显著提升了偏好提取的准确性和系统的透明度。该数据集的出现为车载语音助手领域的研究提供了重要的基准，推动了语音助手在个性化服务中的进一步发展。

当前挑战

CARMEM数据集面临的挑战主要体现在两个方面：首先，在领域问题方面，车载语音助手需要解决用户偏好提取的准确性和隐私保护之间的平衡问题。由于车载系统的操作空间有限，如何有效提取并存储与车辆功能相关的偏好，同时避免无关信息的冗余存储，是一个关键挑战。其次，在数据集构建过程中，研究人员需要模拟真实的车载对话场景，确保生成的对话数据既具有多样性，又能反映用户的真实偏好。此外，如何在多轮对话中保持上下文一致性，并避免偏好提取中的错误和冗余，也是数据集构建中的一大难题。这些挑战要求数据集在生成过程中必须严格控制对话的多样性和一致性，以确保其在实际应用中的有效性。

常用场景

经典使用场景

CARMEM数据集专为车载语音助手场景设计，旨在通过多轮、多会话的对话模拟来增强长期记忆系统的性能。该数据集通过预定义的类别结构，捕捉用户在车载环境中的偏好，如音乐、导航和气候控制等。这种结构化的偏好提取方式使得语音助手能够在后续对话中更精准地回应用户需求，提升个性化体验。

解决学术问题

CARMEM数据集解决了语音助手领域中的长期记忆管理问题。传统语音助手由于缺乏有效的记忆机制，往往无法保留用户偏好，导致重复请求和用户流失。该数据集通过类别约束的偏好提取和维护机制，显著减少了冗余和矛盾的偏好存储，同时提高了偏好检索的准确性。这一创新为学术界提供了新的研究方向，尤其是在隐私保护和透明性方面，符合欧洲GDPR等严格法规的要求。

实际应用

CARMEM数据集的实际应用主要集中在车载语音助手系统中。通过该数据集，语音助手能够更高效地提取、存储和检索用户偏好，从而提供个性化的服务。例如，系统可以根据用户的历史偏好自动调整音乐播放列表或导航路线。此外，该数据集的设计还考虑了隐私保护，允许用户选择性地退出某些类别的偏好提取，增强了用户对数据使用的控制感。

数据集最近研究