大模型训练场景住宅小区用户洞察数据
收藏浙江省数据知识产权登记平台2025-12-13 更新2025-12-16 收录
下载链接:
https://www.zjip.org.cn/home/announce/info
下载链接
链接失效反馈官方服务:
资源简介:
大模型训练用住宅小区用户洞察数据核心价值,十亿级设备使用行为(比如用户手机的app连接上住宅小区wifi后的用户行为数据)经去标识化、聚合化处理,可转化为住宅小区宏观群体画像。这类高质量统计数据能让大语言模型高效学习真实用户分布、社会常识与市场趋势,优化推理能力、校准输出并减少幻觉,还可作为 “事实基准” 与 “认知图谱”,复用于大模型预训练、监督微调及效果评估。
其多维度群体统计数据,是大模型训练优化的关键特征与基准。在预训练与知识增强层面,年龄字段,为模型提供社会人口统计学与消费行为学知识,融入预训练语料后,能帮模型更精准理解现实用户群体,回答 “设计面向住户的产品” 等问题时更符合商业逻辑。优化对话与推荐能力时,人员年龄占比、TGI 指标等将群体偏好量化,微调垂直领域模型时,可据此构建指令样本,如指令 “分析某一小区典型用户画像”,期望输出 “以一线城市 25 - 40 岁男性为主,TGI=135”,助力模型形成 “量化分析” 思维,提升垂直领域对话专业性。
此外,该数据可校准模型输出并评估 “幻觉”,还能集成到 RAG 系统,确保模型回答用户画像问题时依据真实数据。
提供机构:
每日互动股份有限公司
创建时间:
2025-12-13
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一系列医疗检测数据,主要涵盖温岭市人群的肠镜和胃镜检测信息,由台州市肿瘤医院通过公共数据授权提供。其核心目的是通过量化评估病变特征(如病变部位、病理诊断编码、腺瘤性息肉绒毛状结构比例等),基于AHP层次法进行风险分层(高、中、低危险),以支持结直肠癌和胃癌的早期诊断与临床决策,提升诊疗管理的标准化水平。数据集特点在于针对不同解剖部位(如横结肠、回肠、胃窦等)设计了具体的算法规则,实现从定性描述到结构化报告的转变。
以上内容由遇见数据集搜集并总结生成



