five

大模型训练场景餐馆到访用户洞察数据

收藏
浙江省数据知识产权登记平台2025-12-13 更新2025-12-16 收录
下载链接:
https://www.zjip.org.cn/home/announce/info
下载链接
链接失效反馈
官方服务:
资源简介:
餐馆到访用户洞察数据对大模型训练的价值,十亿级餐馆到访设备使用行为(比如用户使用手机在某个餐饮业app的使用行为数据),经去标识化、聚合化处理后,可转化为宏观群体画像。这类高质量统计数据,能让大语言模型高效学习真实用户分布、社会常识与市场趋势,进而优化推理能力、校准输出并减少幻觉,且复用性强,适用于大模型预训练、监督微调与效果评估,是优质 “事实基准” 与 “认知图谱”。 其详尽统计维度可直接用于大模型训练优化:一是预训练与知识增强,年龄等字段,为模型提供社会人口统计学与消费行为学知识,融入预训练语料能强化模型对现实用户的理解,使其回答相关问题时更贴合商业逻辑;二是优化对话与推荐能力,年龄占比、TGI 等指标将群体偏好量化,可构建指令样本让模型学习 “量化分析” 思维,提升垂直领域对话质量;三是校准输出与评估 “幻觉”,可作为基准检验模型描述准确性,还能集成到 RAG 系统保障回答真实;四是合成模拟对话数据,依托用户年龄标签,可批量生成模拟数据扩充训练集,提升模型泛化能力与用户体验。
提供机构:
每日互动股份有限公司
创建时间:
2025-12-13
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含多个医疗检测数据集,主要涉及肠镜和胃镜检测,用于结直肠癌及相关疾病的筛查与早期诊断。其特点是通过量化指标(如病变部位、病理诊断编码、息肉绒毛状结构比例等)进行标准化评估,并采用AHP层次法进行风险分层,以支持临床决策和生成结构化报告。所有数据均来自台州市肿瘤医院,通过公共数据授权收集,旨在提升特定肠段或胃部病变的诊疗管理水平。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务