大模型训练场景用户标签明细数据

Name: 大模型训练场景用户标签明细数据
Creator: 每日互动股份有限公司
Published: 2025-12-26 16:13:22
License: 暂无描述

浙江省数据知识产权登记平台2025-12-26 更新2025-12-27 收录

下载链接：

https://www.zjip.org.cn/home/announce/trends/8419632

下载链接

链接失效反馈

官方服务：

资源简介：

用户标签明细数据通过去标识化技术，将app应用偏好转化为结构化的标签序列。这些现实世界行为关联数据，为大语言模型提供了学习“群体画像-数字习惯”之间复杂关联的优质语料，能直接扩充模型对人类社会经济行为的认知维度，提升其生成与推理的现实合理性。作为预训练的“社会行为知识库”：数据中“用户标签”与“APP列表”的组合（如“理财人群”常使用“金融理财”APP），能直接教会大模型理解不同人群的生活习惯，显著增强模型在商业分析、产品设计等任务中的基础常识与推理合理性。用于优化个性化生成任务：在微调营销文案生成、个性化推荐等垂直模型时，该数据是构建高质量指令样本的关键。例如，输入“用户标签：[示例标签]”，可训练模型输出针对该画像的定制化广告语或产品建议。充当推荐系统与评估的基准：可用于评估大模型在用户偏好推理上的准确性。通过检查模型对标签关联性的预测，可量化并校准模型的“现实感”，减少常识性幻觉。该数据能有效增强模型的认知能力、生成准确性和商业实用性，具有很强的复用价值。1、数据收集：通过集成个推软件开发工具包（SDK），实现对海量、离散用户设备使用行为数据的实时与离线采集，采集范围涵盖设备APP安装列表、APP使用时长、功能操作记录、内容浏览轨迹等多维度行为信息。采集后的数据将经过初步格式规整，加工产出以群体设备画像为核心的数据资产，为后续标签生成提供坚实的数据支撑。 2、数据处理：数据预处理：依托高效数据管道与分布式处理引擎，对采集的原始日志数据进行清洗，剔除重复、异常、无效数据，确保数据质量；同时进行初步聚合，形成以设备为维度的行为数据集。深度脱敏处理：所有涉及用户标识的核心数据（如设备唯一标识、账号关联信息等），均会经过SHA-256等高强度密码学哈希函数进行单向、不可逆的混淆计算，生成无意义的哈希值替代原始标识。该过程彻底实现数据的匿名化与去标识化，从源头切断信息回溯至特定个人的可能性，为后续标签计算提供安全合规的数据原料。 3、算法加工：核心遵循“基于SDK采集日志数据，分析后为设备打标签”的规则。采用注意力机制序列模型，挖掘设备行为模式，为那些展现出显著习惯特征（如高频使用理财类APP）的设备打上“理财人群”等群体身份标签。其次，结合逻辑回归等预测模型，依据行为特征推断潜在的人口属性，生成如“退休、买房”等社会特征标签，并附上置信度评估。同时，我们依据自建的语义分类体系，将设备中功能或服务商相近的具体APP进行归类概括，例如，将安装有“中国移动APP”等系列应用归类为“中国移动”这一标准化服务偏好标签，从而将具体行为提升为可被认知的数字偏好描述。

提供机构：

每日互动股份有限公司

创建时间：

2025-12-07

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集包含500条去标识化的用户标签明细数据，每月更新，适用于大模型训练场景。它通过将APP安装列表转化为结构化标签序列，帮助模型学习群体画像与数字习惯之间的关联，增强在商业分析和个性化生成任务中的现实合理性。数据经过深度脱敏处理，确保安全合规，可作为预训练知识库和评估基准，提升模型的认知能力和商业实用性。

以上内容由遇见数据集搜集并总结生成