five

EdgeWisePersona

收藏
arXiv2025-05-17 更新2025-05-20 收录
下载链接:
https://huggingface.co/datasets/TCLResearchEurope/EdgeWisePersona, https://github.com/TCLResearchEurope/EdgeWisePersona
下载链接
链接失效反馈
官方服务:
资源简介:
EdgeWisePersona数据集由TCL Research Europe创建,旨在评估和改进在边缘设备上部署的小型语言模型。数据集包含用户配置文件和模拟的智能家庭环境中的用户-设备交互会话,支持用户配置文件重建任务。数据集由200个用户的5000个自然语言会话组成,每个会话都与一个或多个用户行为模式相关联。数据集是使用DeepSeek-V3语言模型生成的,并通过人类注释者进行了校对。该数据集为开发和评估在边缘设备上运行的轻量级、隐私保护的个性化语言模型提供了重要的基础。

The EdgeWisePersona dataset was created by TCL Research Europe, with the aim of evaluating and improving small language models deployed on edge devices. The dataset includes user profiles and simulated user-device interaction sessions in smart home environments, supporting user profile reconstruction tasks. It consists of 5,000 natural language sessions from 200 users, with each session associated with one or more user behavior patterns. The dataset was generated using the DeepSeek-V3 language model and proofread by human annotators. This dataset provides a crucial foundation for developing and evaluating lightweight, privacy-preserving personalized language models running on edge devices.
提供机构:
TCL Research Europe
创建时间:
2025-05-17
搜集汇总
数据集介绍
main_image_url
构建方式
EdgeWisePersona数据集通过多阶段流程构建,旨在模拟智能家居环境中的自然语言交互。首先,基于预定义的用户行为档案,包括触发条件和设备操作,利用DeepSeek-V3大语言模型生成多样化的对话会话。每个会话均经过人工审核以确保语言流畅性和行为一致性。数据集最终以对齐的JSONL格式组织,包含用户个性描述、行为档案及交互会话三部分,确保数据结构的模块化和易用性。
特点
该数据集的核心特点在于其高度结构化的用户行为建模和丰富的上下文标注。每个用户档案由多组行为模式组成,涵盖时间、天气等环境触发条件及对应的设备操作。数据集包含200名用户的10,000个会话,其中75%遵循预设行为模式,25%为自发交互,模拟了真实场景下的用户行为多样性。会话平均包含9.88条消息,每用户平均拥有3.98个行为模式,为边缘设备上的用户画像研究提供了细粒度基准。
使用方法
数据集支持以会话历史重建用户行为档案的核心任务。使用时需解析三个对齐的JSONL文件,将自然语言会话与标注的触发条件、设备操作进行关联。研究人员可通过监督学习训练模型从对话中推断行为模式,或直接使用内置评估协议测试模型性能。基准任务要求模型精确预测行为模式的触发条件和设备操作,评估指标包括严格匹配准确率和Jaccard相似度。数据集开源工具链支持自定义模型集成与扩展评估。
背景与挑战
背景概述
EdgeWisePersona数据集由TCL Research Europe的研究团队于2025年推出,旨在解决智能家居环境中基于自然语言交互的用户画像构建问题。该数据集通过模拟用户与智能家居设备的多轮对话,生成了包含200个用户、总计10000个会话的丰富语料,每个用户会话均基于结构化行为模式(即日常习惯)生成。其核心研究问题是评估轻量级语言模型在边缘设备上重建用户行为模式的能力,为隐私保护型个性化AI系统的发展提供了重要基准。该数据集填补了现有资源在持续性用户身份、多会话连贯性和智能家居领域特异性方面的空白,推动了边缘计算与行为建模的交叉研究。
当前挑战
该数据集面临双重挑战:在领域问题层面,边缘设备上的轻量级模型难以精确重建包含复杂触发条件和多设备动作的用户行为模式,其准确度较云端大模型存在显著差距(如动作序列预测准确度相差40%以上);在构建层面,需平衡合成数据的多样性(25%非习惯性交互)与真实性,同时确保10,000个会话在200个用户间的行为模式一致性。具体技术挑战包括:标量参数预测误差较高(小模型MAE达7.348)、分类字段识别准确度不足(最佳小模型仅88%),以及长上下文建模对边缘设备算力的严苛要求(需支持128k令牌上下文)。
常用场景
经典使用场景
EdgeWisePersona数据集最经典的使用场景在于评估和优化可部署在边缘设备上的小型语言模型,特别是在智能家居环境中通过多轮自然语言交互进行用户画像重建。该数据集通过模拟真实用户与智能家居系统的对话,为研究提供了丰富的交互历史和结构化用户画像,使得模型能够学习如何从对话中推断用户的行为模式和偏好。
衍生相关工作
EdgeWisePersona数据集衍生了多个相关研究,包括边缘设备上的轻量级语言模型优化、多模态用户画像构建以及智能家居环境中的上下文感知对话系统。这些工作进一步探索了如何在资源受限的设备上实现高效的个性化服务,推动了边缘AI和隐私保护技术的融合与发展。
数据集最近研究
最新研究方向
随着边缘计算和智能家居技术的快速发展,EdgeWisePersona数据集为设备端用户画像研究开辟了新的前沿方向。该数据集聚焦于多会话自然语言交互场景下的用户行为建模,通过结构化用户画像和模拟对话,为轻量化语言模型在隐私保护、低延迟的智能家居环境中实现个性化服务提供了重要基准。当前研究热点集中在三个方面:一是探索轻量化模型在复杂行为模式重建中的性能优化策略,以弥合与大型模型的精度差距;二是开发新型的增量学习框架,使模型能够从持续交互中动态更新用户画像;三是研究跨设备协同推理机制,在保障数据隐私的前提下提升分布式场景下的行为预测准确性。这些研究方向不仅推动了边缘AI在智能家居领域的实用化进程,也为构建符合GDPR标准的隐私计算范式提供了技术验证平台。
相关研究论文
  • 1
    EdgeWisePersona: A Dataset for On-Device User Profiling from Natural Language InteractionsTCL Research Europe · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作