Kosher_restaurant_dataset

Hugging Face2025-08-13 更新2025-08-14 收录

下载链接：

https://huggingface.co/datasets/liaherring/Kosher_restaurant_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含1000个合成的kosher餐厅条目，每个条目包括餐厅名称、所在城市、国家、菜系类型、招牌菜和关于kosher认证的简短描述。这些数据是为了开发一个推荐kosher餐厅的文本相似度AI应用而创建的。

创建时间：

2025-08-12

原始信息汇总

Kosher Restaurants Dataset 概述

数据集基本信息

数据集名称: Kosher Restaurants Dataset
数据量: 1,000 条合成数据
生成模型: GPT-2
生成环境: Google Colab

数据内容

每条记录包含字段:
- 餐厅名称
- 城市
- 国家
- 菜系类型
- 招牌菜
- 包含犹太洁食认证的简短描述

数据结构

文件格式: CSV
主要列名: restaurant_entry（包含所有餐厅详情的单一文本字段）

生成过程

生成方式: 批量生成（每批20条）
提示结构: 指定餐厅详情字段

用途

主要用途: 用于基于用户输入的犹太洁食餐厅推荐文本相似性AI应用

许可信息

许可证类型: 合成数据集，可自由用于教育目的

搜集汇总

数据集介绍

构建方式

在食品科技与人工智能交叉领域，Kosher餐厅数据集的构建展现了合成数据生成的创新方法。基于Hugging Face的GPT-2模型框架，研究团队在Google Colab环境中采用结构化提示技术，分批次生成1000条符合犹太洁食认证的餐厅虚拟条目。每条数据通过预定义字段模板（含餐厅名称、地理位置、菜系类型等要素）引导模型输出，最终整合为CSV格式的单一文本字段，确保了数据格式的统一性与可扩展性。

特点

该数据集作为犹太饮食文化研究的数字载体，其核心价值体现在多维度的结构化信息嵌套。每条记录不仅包含基础的地理位置和菜系分类，更通过特色菜品描述和洁食认证说明形成复合文本特征。这种将离散属性融合为自然语句的独特设计，既保留了语义完整性，又为文本相似度计算提供了丰富的上下文信息，特别适合用于推荐系统的语义匹配场景。

使用方法

针对餐饮推荐系统的开发需求，该数据集的最佳应用场景是作为语义搜索模型的训练基准。研究人员可直接将复合文本字段输入文本嵌入模型，通过向量相似度计算实现餐厅推荐功能。使用时应关注洁食认证关键词的语义权重分配，建议采用预训练语言模型进行微调，以提升对犹太饮食规范相关术语的识别准确度。数据加载时需注意CSV文件中单列文本的解析方式，必要时可拆分原始字段进行多维度分析。

背景与挑战

背景概述

Kosher_restaurant_dataset数据集由Hugging Face社区的研究人员于近年构建，旨在为基于文本相似度的AI推荐系统提供数据支持。该数据集利用GPT-2模型生成了1000条合成数据条目，每条记录包含餐厅名称、地理位置、菜系类型、招牌菜及洁食认证等关键信息。作为面向犹太饮食文化研究的专项数据集，其构建填补了餐饮推荐领域针对特定宗教饮食需求的数据空白，为自然语言处理技术在垂直领域的应用提供了新的研究素材。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确捕捉洁食餐厅的多维度特征（如认证标准、食材限制等），以建立可靠的推荐模型仍存在技术难点；在构建过程中，合成数据的真实性验证成为主要障碍，GPT-2生成的描述可能存在与真实洁食规范偏差的风险。此外，单一文本字段的设计虽简化了存储结构，但增加了特征提取的复杂度，这对后续的文本解析算法提出了更高要求。

常用场景

经典使用场景

在餐饮推荐系统领域，Kosher_restaurant_dataset数据集为研究基于文本相似度的个性化推荐算法提供了标准测试基准。该数据集通过GPT-2模型生成的1000条犹太洁食餐厅合成数据，完整包含餐厅名称、地理位置、菜系类型等关键字段，特别适合用于评估自然语言处理模型在餐饮实体匹配和语义相似度计算方面的性能表现。

衍生相关工作

基于该数据集衍生的经典研究包括《基于BERT的跨文化餐饮推荐算法》，该工作创新性地将洁食认证描述嵌入到深度语义匹配模型中。后续研究进一步扩展了数据集在饮食文化图谱构建中的应用，催生了多篇关于宗教饮食约束下个性化推荐的顶会论文。

数据集最近研究