five

基于记账内容的养宠用户兴趣关键词挖掘数据

收藏
浙江省数据知识产权登记平台2026-05-14 更新2026-05-15 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8444615
下载链接
链接失效反馈
官方服务:
资源简介:
1.“宠one小程序”是公司自研的一款宠物社区平台,因此本数据对内有助于实现精细化用户运营。基于通过BERT模型微调生成的用户兴趣画像,运营团队能够精准把握养宠用户的需求动向,从而动态优化内容推荐与服务策略,有效提升用户活跃度与留存。 2.对外可为合作伙伴提供清晰的宠物消费兴趣趋势洞察。经脱敏处理的用户主兴趣类别与关键词,能够帮助宠物品牌及相关服务商把握该行业市场需求的结构性变化,辅助其优化产品规划与营销资源分配,实现更精准的宠物行业商业协同。 3.为算法模型提供持续迭代的高质量训练与验证样本。本数据产出过程本身即依赖于模型微调,其输出的带标注的兴趣画像数据,可直接作为推荐系统及预测模型的反馈信号,用于模型的再训练与优化,形成从数据到模型、再从业务反馈到数据的增强闭环。1.数据来源与预处理 (1)数据来源:加工前的数据为公司基于“宠one小程序”记账功能而实时采集的由小程序用户自行记录的宠物消费记账数据,并已经用户授权合法获得,采集字段包括::用户ID、记账类型、记账内容、金额、记账时间。 (2)数据预处理:剔除金额≤0的异常记录,清洗内容字段中的特殊字符与停用词。 2.处理规则: (1)特征构建:对清洗后的“内容”字段应用TF-IDF算法提取文本特征,并与“金额”、“记账类型”字段共同组合为多维特征向量,作为模型输入的一部分。 (2)模型微调: ①基础模型:采用BERT-base-Chinese作为预训练模型进行微调。 ②模型结构调整:在 BERT 模型的最终输出层上接入一个全新的Softmax分类层,该层的神经元数量对应四大兴趣类别(饮食营养/健康医疗/行为训练与托管/居住与日常护理),从而构成一个完整的端到端分类模型。 ③训练设置:将数据集按8:1:1划分训练集、验证集与测试集。设置批次大小为32,学习率为3e-5,共训练10个轮次。训练过程旨在优化整体模型(包括BERT参数与Softmax层参数),使其能根据输入特征准确预测兴趣类别。 (3)兴趣类别判定:将预处理后的数据输入上述微调好的模型,模型通过末端的Softmax层输出四大类别的概率分布,将概率最高的类别判定为该条记录的主兴趣类别。 (4)核心关键词提取:利用微调后BERT模型内部自带的注意力机制,分析模型在做出分类决策时对“内容”字段中不同词语的关注权重,直接提取注意力权重最高的词语作为单一核心兴趣关键词。此过程与分类任务共享同一个训练好的模型,无需引入外部工具。 (5)最终输出:每条记账记录处理完成后,输出其对应的主兴趣类别与核心兴趣关键词。 3.数据内容描述:加工前的数据经上述算法规则处理后,输出的数据内容为:每条记账记录所对应的主兴趣类别与核心兴趣关键词。
提供机构:
杭州探奥科技有限公司
创建时间:
2026-02-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集基于“宠one小程序”用户授权的宠物消费记账数据,通过BERT模型微调与注意力机制,自动挖掘养宠用户的兴趣类别(如健康医疗、饮食营养)及核心关键词。数据规模为1019条,涵盖用户ID、记账类型、金额、时间及挖掘出的主兴趣类别和关键词,适用于精细化用户运营、宠物市场趋势洞察以及推荐模型的迭代优化,是链接用户行为与商业决策的高质量标注数据集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作