EdgeWisePersona

Name: EdgeWisePersona
Creator: TCL Research Europe
Published: 2025-05-17 00:29:21
License: 暂无描述

arXiv2025-05-17 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/TCLResearchEurope/EdgeWisePersona, https://github.com/TCLResearchEurope/EdgeWisePersona

下载链接

链接失效反馈

官方服务：

资源简介：

EdgeWisePersona数据集由TCL Research Europe创建，旨在评估和改进在边缘设备上部署的小型语言模型。数据集包含用户配置文件和模拟的智能家庭环境中的用户-设备交互会话，支持用户配置文件重建任务。数据集由200个用户的5000个自然语言会话组成，每个会话都与一个或多个用户行为模式相关联。数据集是使用DeepSeek-V3语言模型生成的，并通过人类注释者进行了校对。该数据集为开发和评估在边缘设备上运行的轻量级、隐私保护的个性化语言模型提供了重要的基础。

The EdgeWisePersona dataset was created by TCL Research Europe, with the aim of evaluating and improving small language models deployed on edge devices. The dataset includes user profiles and simulated user-device interaction sessions in smart home environments, supporting user profile reconstruction tasks. It consists of 5,000 natural language sessions from 200 users, with each session associated with one or more user behavior patterns. The dataset was generated using the DeepSeek-V3 language model and proofread by human annotators. This dataset provides a crucial foundation for developing and evaluating lightweight, privacy-preserving personalized language models running on edge devices.

提供机构：

TCL Research Europe

创建时间：

2025-05-17

搜集汇总

数据集介绍

构建方式

EdgeWisePersona数据集通过多阶段流程构建，旨在模拟智能家居环境中的自然语言交互。首先，基于预定义的用户行为档案，包括触发条件和设备操作，利用DeepSeek-V3大语言模型生成多样化的对话会话。每个会话均经过人工审核以确保语言流畅性和行为一致性。数据集最终以对齐的JSONL格式组织，包含用户个性描述、行为档案及交互会话三部分，确保数据结构的模块化和易用性。

特点

该数据集的核心特点在于其高度结构化的用户行为建模和丰富的上下文标注。每个用户档案由多组行为模式组成，涵盖时间、天气等环境触发条件及对应的设备操作。数据集包含200名用户的10,000个会话，其中75%遵循预设行为模式，25%为自发交互，模拟了真实场景下的用户行为多样性。会话平均包含9.88条消息，每用户平均拥有3.98个行为模式，为边缘设备上的用户画像研究提供了细粒度基准。

使用方法

数据集支持以会话历史重建用户行为档案的核心任务。使用时需解析三个对齐的JSONL文件，将自然语言会话与标注的触发条件、设备操作进行关联。研究人员可通过监督学习训练模型从对话中推断行为模式，或直接使用内置评估协议测试模型性能。基准任务要求模型精确预测行为模式的触发条件和设备操作，评估指标包括严格匹配准确率和Jaccard相似度。数据集开源工具链支持自定义模型集成与扩展评估。

背景与挑战

背景概述

EdgeWisePersona数据集由TCL Research Europe的研究团队于2025年推出，旨在解决智能家居环境中基于自然语言交互的用户画像构建问题。该数据集通过模拟用户与智能家居设备的多轮对话，生成了包含200个用户、总计10000个会话的丰富语料，每个用户会话均基于结构化行为模式（即日常习惯）生成。其核心研究问题是评估轻量级语言模型在边缘设备上重建用户行为模式的能力，为隐私保护型个性化AI系统的发展提供了重要基准。该数据集填补了现有资源在持续性用户身份、多会话连贯性和智能家居领域特异性方面的空白，推动了边缘计算与行为建模的交叉研究。

当前挑战

该数据集面临双重挑战：在领域问题层面，边缘设备上的轻量级模型难以精确重建包含复杂触发条件和多设备动作的用户行为模式，其准确度较云端大模型存在显著差距（如动作序列预测准确度相差40%以上）；在构建层面，需平衡合成数据的多样性（25%非习惯性交互）与真实性，同时确保10,000个会话在200个用户间的行为模式一致性。具体技术挑战包括：标量参数预测误差较高（小模型MAE达7.348）、分类字段识别准确度不足（最佳小模型仅88%），以及长上下文建模对边缘设备算力的严苛要求（需支持128k令牌上下文）。

常用场景

经典使用场景

EdgeWisePersona数据集最经典的使用场景在于评估和优化可部署在边缘设备上的小型语言模型，特别是在智能家居环境中通过多轮自然语言交互进行用户画像重建。该数据集通过模拟真实用户与智能家居系统的对话，为研究提供了丰富的交互历史和结构化用户画像，使得模型能够学习如何从对话中推断用户的行为模式和偏好。

衍生相关工作

EdgeWisePersona数据集衍生了多个相关研究，包括边缘设备上的轻量级语言模型优化、多模态用户画像构建以及智能家居环境中的上下文感知对话系统。这些工作进一步探索了如何在资源受限的设备上实现高效的个性化服务，推动了边缘AI和隐私保护技术的融合与发展。

数据集最近研究