five

中国铁路餐饮数据集(CRFD-25)

收藏
arXiv2025-07-31 更新2025-08-02 收录
下载链接:
https://www.github.com/CQUPTAI/LLM4Rail
下载链接
链接失效反馈
官方服务:
资源简介:
CRFD-25数据集是首个面向铁路服务的餐饮外卖数据集,包含了来自各个城市、菜系、年龄段和辣度水平的特色菜品。该数据集旨在为铁路乘客提供个性化的餐饮服务,并支持基于特征相似性的零样本对话推荐系统。

The CRFD-25 dataset is the first food delivery dataset tailored for railway services. It encompasses signature dishes from diverse cities, cuisines, age groups and spiciness levels. This dataset aims to provide personalized catering services for railway passengers, and supports zero-shot conversational recommendation systems based on feature similarity.
提供机构:
重庆邮电大学人工智能学院, 西交利物浦大学智能科学系, 深圳凡响工业有限公司研发部
创建时间:
2025-07-31
搜集汇总
数据集介绍
main_image_url
构建方式
中国铁路餐饮数据集(CRFD-25)的构建依托于对中国33个高铁路流量城市的代表性菜品进行系统收集与标注。数据源选自美团和大众点评两大主流外卖平台,确保数据的广泛性与代表性。每道菜品均以图文形式存储,并标注了包括菜系类型、适宜人群、辣度等级在内的多维特征。采用多热编码技术处理多选特征,如辣度分级,而分类特征则通过顺序整数编码实现结构化存储。数据筛选标准兼顾地域特色与普适性,既包含上海汤包等地方特色,也纳入麦当劳等国际快餐品牌,以满足不同年龄层旅客的多样化需求。
特点
该数据集作为首个铁路场景专属的外卖数据集,其突出特点在于精细的菜品特征体系与多维度分类标签。所有菜品按城市、菜系、价格区间及辣度等级等特征进行系统归类,并标注了适用餐段(早餐/午餐)和儿童友好度等实用属性。数据集特别注重平衡地域特色与大众接受度,既收录了川菜等地方菜系的代表菜品,也包含适合儿童的非辣食品。结构化特征编码方案便于机器学习模型处理,而图文并茂的数据形式则为视觉推荐系统提供了丰富素材。数据集覆盖的广泛城市网络与多样化菜品,为构建个性化铁路餐饮推荐系统奠定了坚实基础。
使用方法
CRFD-25数据集主要应用于基于大语言模型的零样本对话推荐系统。系统首先通过QTAO(问题-思考-行动-观察)提示框架理解用户餐饮偏好,生成初步推荐列表后,采用特征相似度匹配算法将推荐项与数据集内容对齐。具体流程包含:将用户对话历史与特征指令输入大模型生成候选推荐;通过余弦相似度计算候选菜品与数据集中项目的特征匹配度;最终输出符合数据集范围的优化推荐列表。该方法有效解决了开放推荐中可能出现的无效推荐问题,确保所有推荐菜品均可实际供应。数据集还可用于训练传统推荐模型,其丰富的标注特征支持内容过滤、协同过滤等多种推荐算法的实施。
背景与挑战
背景概述
中国铁路餐饮数据集(CRFD-25)由重庆邮电大学人工智能学院与西交利物浦大学智能科学系等机构的研究团队于2025年联合构建,旨在推动铁路场景下的个性化餐饮服务研究。该数据集聚焦于解决高铁出行场景中乘客餐饮需求多样化与地域分布广泛性之间的匹配问题,收录了覆盖中国33个高铁枢纽城市的特色餐饮数据,包含价格区间、辣度等级、适龄群体等多维度标注特征。作为首个公开的铁路场景外卖数据集,CRFD-25通过整合美团、大众点评等平台数据,为智能推荐系统提供了细粒度的菜品特征表示,对提升铁路增值服务品质具有重要实践价值。
当前挑战
在领域问题层面,CRFD-25需解决开放推荐场景中LLM生成项与实体菜单的匹配难题,传统推荐系统难以处理乘客即时变化的饮食偏好与列车餐车库存的动态约束。构建过程中面临多源数据融合挑战,需平衡地域特色菜品与标准化快餐的比例,同时解决跨平台菜品特征体系的异构性问题。数据标注环节涉及复杂的多标签分类任务,如辣度等级划分需考虑地域饮食文化差异,年龄适配性标注需结合营养学知识,这些都对标注规范制定与质量控制提出了较高要求。
常用场景
经典使用场景
中国铁路餐饮数据集(CRFD-25)在铁路服务智能化领域具有广泛的应用场景。该数据集最经典的使用场景之一是为铁路乘客提供个性化的餐饮推荐服务。通过整合来自33个高铁枢纽城市的特色菜品数据,结合乘客的年龄、口味偏好和消费习惯等多维度特征,系统能够为不同乘客推荐最适合的餐饮选择。例如,系统可以为儿童推荐汉堡类快餐,为偏好辛辣食物的乘客推荐川菜特色菜品,实现了真正意义上的个性化服务。
解决学术问题
CRFD-25数据集有效解决了铁路服务领域多个关键学术问题。首先,它填补了铁路场景下餐饮推荐数据集的空白,为相关研究提供了基准数据支持。其次,通过标注菜品的城市归属、菜系类别、适宜年龄段和辣度等级等特征,解决了跨地域口味偏好建模的难题。此外,数据集支持基于特征相似度的推荐对齐算法研究,有效缓解了大型语言模型在开放推荐中的幻觉问题,提升了推荐系统的实用性和可靠性。
衍生相关工作
围绕CRFD-25数据集已衍生出多项重要研究工作。最具代表性的是LLM4Rail平台提出的QTAO提示框架,该框架将语言模型的推理能力与铁路场景的特定任务相结合。此外,基于该数据集开发的零样本对话推荐系统开辟了新型推荐范式,相关技术已被拓展应用于旅游、酒店等服务领域。数据集还启发了多项关于跨域推荐对齐和特征相似度匹配算法的改进研究,推动了对话式推荐系统的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作