KERL Benchmark Dataset

Name: KERL Benchmark Dataset
Creator: 伦斯勒理工学院
Published: 2025-05-21 01:19:57
License: 暂无描述

arXiv2025-05-21 更新2025-05-22 收录

下载链接：

https://github.com/mohbattharani/KERL

下载链接

链接失效反馈

官方服务：

资源简介：

KERL数据集是一个基准数据集，用于评估基于大型语言模型（LLMs）和知识图谱（KGs）的个性化食谱推荐系统。该数据集由精选的食谱相关问题、约束条件和个人偏好组成。数据集的创建旨在为食物推荐、食谱生成和营养分析提供完整且一致的解决方案。数据集的访问地址为https://github.com/mohbattharani/KERL。

The KERL dataset is a benchmark dataset for evaluating personalized recipe recommendation systems based on Large Language Models (LLMs) and Knowledge Graphs (KGs). It comprises curated recipe-related questions, constraints, and personal preferences. The dataset was created to provide a comprehensive and consistent solution for food recommendation, recipe generation, and nutritional analysis. The dataset can be accessed at https://github.com/mohbattharani/KERL.

提供机构：

伦斯勒理工学院

创建时间：

2025-05-21

原始信息汇总

KERL数据集概述

数据集标题

KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models

摘要

结合大型语言模型（LLMs）和知识图谱（KGs）提供个性化食品推荐。
生成包含微营养信息的食谱。
通过自然语言问题提取实体，从KG中检索子图，作为LLM上下文选择满足约束的食谱。
生成烹饪步骤和营养信息。
开发了一个基准数据集，包含与食谱相关的问题、约束和个人偏好。
实验表明，KG增强的LLM显著优于现有方法。

数据下载

Recipe1M: http://im2recipe.csail.mit.edu（可能不公开）
FoodKG: https://foodkg.github.io

模型训练

在script/finetune.sh中提供参数。
运行命令：bash script/finetune.sh

演示

使用FoodKG的子集以加快响应速度。
基础模型路径：microsoft/Phi-3-mini-128k-instruct或从Hugging Face下载到本地目录。
从KERL-HF下载适配器，并放置在checkpoints目录中。
运行命令：python demo.py
可更改问题内容。

引用

bibtex @article{mohbat2024llavachef, title={KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models}, author={Fnu Mohbat, Mohammed J. Zaki}, booktitle = {Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL)}, year = {2025} }

搜集汇总

数据集介绍

构建方式

KERL Benchmark Dataset的构建采用了知识图谱（KG）与大语言模型（LLM）相结合的创新方法。首先，研究团队从FoodKG中提取了超过100万条食谱数据，这些数据包含了丰富的营养成分、食材和标签信息。通过自然语言处理技术，系统能够解析用户查询中的实体（如食材偏好和营养限制），并生成相应的SPARQL查询以从知识图谱中检索相关子图。这些子图随后被序列化为文本序列，作为上下文输入到LLM中，以生成满足用户约束的食谱推荐。此外，研究团队还通过模板问题和人工筛选的方式，构建了包含复杂约束和个性化偏好的基准数据集，确保了数据集的多样性和实用性。

特点

KERL Benchmark Dataset的主要特点在于其高度个性化和多任务集成能力。数据集不仅涵盖了广泛的食谱类型和营养信息，还通过知识图谱的引入，实现了对复杂查询的精准响应。具体而言，数据集支持多种营养约束（如低蛋白、低胆固醇）和食材偏好（如包含或排除特定食材），能够满足不同用户的个性化需求。此外，数据集还提供了食谱生成和营养分析的多任务支持，使得系统能够一站式地完成食谱推荐、烹饪步骤生成和营养信息分析。数据集的规模庞大，包含超过77,900个问题-答案对，确保了模型的泛化能力和鲁棒性。

使用方法

使用KERL Benchmark Dataset时，用户可以通过自然语言提问的方式表达其食谱需求和偏好。系统首先解析查询中的实体和约束，然后从知识图谱中检索相关子图作为上下文。这些上下文与用户查询一起输入到LLM中，生成满足条件的食谱推荐。随后，系统利用专门的模块（KERL-Recipe和KERL-Nutri）生成详细的烹饪步骤和营养成分信息。用户可以根据生成的食谱和营养信息进行进一步的调整和优化。数据集的使用方法灵活，支持多种输入形式（如纯文本、食材列表或营养约束），适用于不同的应用场景，如健康饮食推荐、个性化食谱生成等。

背景与挑战

背景概述

KERL Benchmark Dataset是由Rensselaer Polytechnic Institute的Fnu Mohbat和Mohammed J. Zaki于2025年提出的，旨在通过结合大型语言模型（LLMs）和知识图谱（KGs）来提供个性化的食物推荐和食谱生成。该数据集的核心研究问题是解决食物推荐系统中的个性化需求，包括用户偏好、饮食限制和营养分析。KERL系统通过提取用户查询中的实体，从知识图谱中检索相关子图，并将其作为上下文输入到LLM中，以生成满足约束条件的食谱。这一研究在食物计算和个性化推荐领域具有重要影响力，为健康饮食和食谱生成提供了全面的解决方案。

当前挑战

KERL Benchmark Dataset面临的挑战主要包括两方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，食物推荐需要综合考虑用户偏好、饮食限制和营养需求，这对模型的复杂性和准确性提出了较高要求。构建过程中的挑战包括知识图谱与LLMs的有效集成、处理用户查询中的复杂约束（如营养范围和食材排除），以及确保生成的食谱和营养信息的准确性和一致性。此外，数据集的构建还需要解决知识图谱的覆盖范围和LLMs可能产生的幻觉问题，这对数据质量和模型性能提出了严格要求。

常用场景

经典使用场景

KERL Benchmark Dataset在个性化食品推荐系统中扮演着关键角色，通过结合知识图谱（KG）和大语言模型（LLMs），该数据集能够处理复杂的用户查询，包括食材偏好、营养限制和个人口味。其经典使用场景包括从自然语言问题中提取实体，检索知识图谱中的子图，并生成满足用户约束的食谱推荐。

实际应用

在实际应用中，KERL Benchmark Dataset可用于开发智能食谱推荐系统，帮助用户根据个人健康需求和饮食偏好选择合适食谱。例如，系统可以为糖尿病患者推荐低糖食谱，或为健身爱好者提供高蛋白餐单，从而促进健康饮食和生活方式的普及。

衍生相关工作

KERL数据集衍生了一系列相关研究，包括基于知识图谱的问答系统（KGQA）、食谱生成模型和营养分析工具。例如，FoodGPT和LLaVA-Chef等研究利用类似技术进一步优化了食谱生成和营养估算的精度，推动了食品计算领域的多任务协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集