NHK Recipe Dataset

Name: NHK Recipe Dataset
Creator: 东京大学
Published: 2025-07-23 13:56:20
License: 暂无描述

arXiv2025-07-23 更新2025-07-25 收录

下载链接：

https://huggingface.co/replace-me

下载链接

链接失效反馈

官方服务：

资源简介：

NHK Recipe Dataset是一个高质量的日本食谱数据集，用于评估大型语言模型（LLMs）对烹饪过程中食材状态变化的识别能力。该数据集由日本广播公司（NHK）的专业厨师和编辑创建的食谱组成，每个食谱都附有清晰的食材状态变化注释。数据集包含大约25,000个食谱条目，每个食谱都经过精心编辑，以消除不一致性和错误。数据集在Hugging Face Hub上公开可用，旨在帮助LLMs更好地理解烹饪过程，并支持人类在现实世界中的烹饪活动。

NHK Recipe Dataset is a high-quality Japanese recipe dataset designed for evaluating the ability of large language models (LLMs) to recognize changes in ingredient states during cooking processes. This dataset comprises recipes created by professional chefs and editors from the Japan Broadcasting Corporation (NHK), with each recipe accompanied by clear annotations of ingredient state changes. It contains approximately 25,000 recipe entries, and every recipe has been meticulously edited to eliminate inconsistencies and errors. The dataset is publicly available on the Hugging Face Hub, aiming to help LLMs better understand cooking processes and support human cooking activities in real-world scenarios.

提供机构：

东京大学

创建时间：

2025-07-23

搜集汇总

数据集介绍

构建方式

NHK Recipe Dataset的构建基于日本广播协会（NHK）教育频道监督的烹饪节目食谱，这些食谱由专业厨师和编辑团队精心编写，确保了数据的高度清洁和一致性。研究人员从HTML文件中提取食谱，并通过人工标注的方式对每个烹饪步骤中食材的状态变化进行详细注释。标注过程包括初始食材列表和每个步骤后的食材状态更新，确保能够全面追踪食材在整个烹饪过程中的变化。

使用方法

NHK Recipe Dataset主要用于评估语言模型在烹饪食谱理解任务中的表现，特别是在食材状态追踪和步骤解析方面。研究人员可以通过该数据集设计多种任务，如步骤参考解析、食材使用预测和食材追踪，以测试模型对烹饪过程中隐含状态变化的理解能力。此外，数据集还可用于训练和优化多模态模型，结合图像和文本信息提升模型在烹饪领域的应用效果。

背景与挑战

背景概述

NHK Recipe Dataset是由东京大学的研究团队于2025年创建的一个高质量烹饪食谱数据集，旨在解决大型语言模型（LLMs）在理解烹饪过程中食材状态变化方面的局限性。该数据集基于日本广播协会（NHK）的烹饪节目食谱，由专业厨师和编辑团队精心编写，具有高度的结构化和标准化特点。数据集的核心研究问题是通过标注食材在每个烹饪步骤中的状态变化，评估和提升语言模型对烹饪过程中世界状态的理解能力。这一研究对自然语言处理、多模态检索以及烹饪领域的智能化应用具有重要影响。

当前挑战

NHK Recipe Dataset面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，数据集旨在解决LLMs在理解烹饪过程中食材状态变化时的困难，例如食材的中间状态往往在食谱文本中被省略，导致模型难以准确跟踪和理解烹饪步骤。在构建过程中，挑战包括如何准确标注食材状态的变化，尤其是在处理复杂的食材转换（如分割、合并等）时保持一致性，以及如何设计有效的评估任务（如步骤引用解析、食材使用预测和食材追踪）来全面评估模型的性能。此外，数据集的构建还需要克服语言和文化的特异性问题，确保标注的准确性和可扩展性。

常用场景

经典使用场景

NHK Recipe Dataset作为首个系统标注烹饪过程中食材状态转变的高质量日文食谱数据集，其核心应用场景在于评估大语言模型（LLMs）对程序性文本中隐含物理状态变化的推理能力。该数据集通过标注每个烹饪步骤后食材的形态、组合状态（如切块、搅拌、煎炸等），为研究者提供了探究模型是否理解‘洋葱切片后体积缩小’‘鸡蛋打发后质地蓬松’等现实世界物理变化的基准平台。在自然语言处理领域，它被广泛用于设计状态探测任务（State Probing Tasks），检验模型能否通过文本指令推断非显性描述的中间状态。

解决学术问题

该数据集解决了程序性文本理解中的关键挑战——模型对隐含物理状态变化的建模缺陷。传统LLMs仅从文本序列学习，无法捕捉食谱中未明示的食材状态转变（如‘黄油融化’的黏度变化或‘蔬菜焯水’后的质地改变）。通过提供25,000条标注状态转变的标准化食谱，该数据集首次实现了：1) 量化评估模型对N-to-1（多食材混合）、1-to-N（食材分割）等复杂状态转换的推理能力；2) 验证多模态信息（如菜谱配图）对物理状态理解的增强作用。实验表明，70B参数以上模型经该数据集微调后，在步骤引用解析等任务准确率提升达48.4%。

实际应用

在实际应用中，该数据集支撑了智能烹饪辅助系统的开发。通过将食材状态知识注入模型，系统能更精准地：1) 预测烹饪异常（如未融化的黄油会导致酱料分离）；2) 生成适应性指导（根据‘土豆未煮透’状态调整后续步骤）；3) 优化多任务调度（识别可并行处理的食材状态组）。日本某厨电厂商已基于此构建了可解释性食谱推荐系统，用户询问‘为何需要静置面团’时，系统能结合标注的状态变化（面筋松弛）给出科学解释。

数据集最近研究