KERL Benchmark Dataset
收藏arXiv2025-05-21 更新2025-05-22 收录
下载链接:
https://github.com/mohbattharani/KERL
下载链接
链接失效反馈官方服务:
资源简介:
KERL数据集是一个基准数据集,用于评估基于大型语言模型(LLMs)和知识图谱(KGs)的个性化食谱推荐系统。该数据集由精选的食谱相关问题、约束条件和个人偏好组成。数据集的创建旨在为食物推荐、食谱生成和营养分析提供完整且一致的解决方案。数据集的访问地址为https://github.com/mohbattharani/KERL。
The KERL dataset is a benchmark dataset for evaluating personalized recipe recommendation systems based on Large Language Models (LLMs) and Knowledge Graphs (KGs). It comprises curated recipe-related questions, constraints, and personal preferences. The dataset was created to provide a comprehensive and consistent solution for food recommendation, recipe generation, and nutritional analysis. The dataset can be accessed at https://github.com/mohbattharani/KERL.
提供机构:
伦斯勒理工学院
创建时间:
2025-05-21
原始信息汇总
KERL数据集概述
数据集标题
KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models
摘要
- 结合大型语言模型(LLMs)和知识图谱(KGs)提供个性化食品推荐。
- 生成包含微营养信息的食谱。
- 通过自然语言问题提取实体,从KG中检索子图,作为LLM上下文选择满足约束的食谱。
- 生成烹饪步骤和营养信息。
- 开发了一个基准数据集,包含与食谱相关的问题、约束和个人偏好。
- 实验表明,KG增强的LLM显著优于现有方法。
数据下载
- Recipe1M: http://im2recipe.csail.mit.edu(可能不公开)
- FoodKG: https://foodkg.github.io
模型训练
- 在
script/finetune.sh中提供参数。 - 运行命令:
bash script/finetune.sh
演示
- 使用FoodKG的子集以加快响应速度。
- 基础模型路径:
microsoft/Phi-3-mini-128k-instruct或从Hugging Face下载到本地目录。 - 从KERL-HF下载适配器,并放置在
checkpoints目录中。 - 运行命令:
python demo.py - 可更改问题内容。
引用
bibtex @article{mohbat2024llavachef, title={KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models}, author={Fnu Mohbat, Mohammed J. Zaki}, booktitle = {Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL)}, year = {2025} }
搜集汇总
数据集介绍

构建方式
KERL Benchmark Dataset的构建采用了知识图谱(KG)与大语言模型(LLM)相结合的创新方法。首先,研究团队从FoodKG中提取了超过100万条食谱数据,这些数据包含了丰富的营养成分、食材和标签信息。通过自然语言处理技术,系统能够解析用户查询中的实体(如食材偏好和营养限制),并生成相应的SPARQL查询以从知识图谱中检索相关子图。这些子图随后被序列化为文本序列,作为上下文输入到LLM中,以生成满足用户约束的食谱推荐。此外,研究团队还通过模板问题和人工筛选的方式,构建了包含复杂约束和个性化偏好的基准数据集,确保了数据集的多样性和实用性。
特点
KERL Benchmark Dataset的主要特点在于其高度个性化和多任务集成能力。数据集不仅涵盖了广泛的食谱类型和营养信息,还通过知识图谱的引入,实现了对复杂查询的精准响应。具体而言,数据集支持多种营养约束(如低蛋白、低胆固醇)和食材偏好(如包含或排除特定食材),能够满足不同用户的个性化需求。此外,数据集还提供了食谱生成和营养分析的多任务支持,使得系统能够一站式地完成食谱推荐、烹饪步骤生成和营养信息分析。数据集的规模庞大,包含超过77,900个问题-答案对,确保了模型的泛化能力和鲁棒性。
使用方法
使用KERL Benchmark Dataset时,用户可以通过自然语言提问的方式表达其食谱需求和偏好。系统首先解析查询中的实体和约束,然后从知识图谱中检索相关子图作为上下文。这些上下文与用户查询一起输入到LLM中,生成满足条件的食谱推荐。随后,系统利用专门的模块(KERL-Recipe和KERL-Nutri)生成详细的烹饪步骤和营养成分信息。用户可以根据生成的食谱和营养信息进行进一步的调整和优化。数据集的使用方法灵活,支持多种输入形式(如纯文本、食材列表或营养约束),适用于不同的应用场景,如健康饮食推荐、个性化食谱生成等。
背景与挑战
背景概述
KERL Benchmark Dataset是由Rensselaer Polytechnic Institute的Fnu Mohbat和Mohammed J. Zaki于2025年提出的,旨在通过结合大型语言模型(LLMs)和知识图谱(KGs)来提供个性化的食物推荐和食谱生成。该数据集的核心研究问题是解决食物推荐系统中的个性化需求,包括用户偏好、饮食限制和营养分析。KERL系统通过提取用户查询中的实体,从知识图谱中检索相关子图,并将其作为上下文输入到LLM中,以生成满足约束条件的食谱。这一研究在食物计算和个性化推荐领域具有重要影响力,为健康饮食和食谱生成提供了全面的解决方案。
当前挑战
KERL Benchmark Dataset面临的挑战主要包括两方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,食物推荐需要综合考虑用户偏好、饮食限制和营养需求,这对模型的复杂性和准确性提出了较高要求。构建过程中的挑战包括知识图谱与LLMs的有效集成、处理用户查询中的复杂约束(如营养范围和食材排除),以及确保生成的食谱和营养信息的准确性和一致性。此外,数据集的构建还需要解决知识图谱的覆盖范围和LLMs可能产生的幻觉问题,这对数据质量和模型性能提出了严格要求。
常用场景
经典使用场景
KERL Benchmark Dataset在个性化食品推荐系统中扮演着关键角色,通过结合知识图谱(KG)和大语言模型(LLMs),该数据集能够处理复杂的用户查询,包括食材偏好、营养限制和个人口味。其经典使用场景包括从自然语言问题中提取实体,检索知识图谱中的子图,并生成满足用户约束的食谱推荐。
实际应用
在实际应用中,KERL Benchmark Dataset可用于开发智能食谱推荐系统,帮助用户根据个人健康需求和饮食偏好选择合适食谱。例如,系统可以为糖尿病患者推荐低糖食谱,或为健身爱好者提供高蛋白餐单,从而促进健康饮食和生活方式的普及。
衍生相关工作
KERL数据集衍生了一系列相关研究,包括基于知识图谱的问答系统(KGQA)、食谱生成模型和营养分析工具。例如,FoodGPT和LLaVA-Chef等研究利用类似技术进一步优化了食谱生成和营养估算的精度,推动了食品计算领域的多任务协同发展。
以上内容由遇见数据集搜集并总结生成



