TASTEset
收藏arXiv2022-04-16 更新2024-06-21 收录
下载链接:
https://github.com/taisti/TASTEset
下载链接
链接失效反馈官方服务:
资源简介:
TASTEset是由华沙理工大学数学与信息科学学院的研究团队开发的一个包含700条食谱的数据集,旨在为食品计算领域提供一个全面的实体识别基准。该数据集涵盖了超过13,000个实体,包括食品产品、数量及其单位、烹饪过程名称、原料的物理质量、用途和味道等。数据集的创建过程涉及从多个网站手动收集和标注食谱,使用BRAT标注工具进行实体识别。TASTEset的应用领域广泛,包括食谱相似性分析、基于深度食品知识的食谱推荐、多语言食谱翻译、新食谱生成及营养成分估算等,旨在解决食品计算中的复杂信息提取问题。
TASTEset is a dataset of 700 recipes developed by a research team from the Faculty of Mathematics and Information Science at Warsaw University of Technology, designed to serve as a comprehensive entity recognition benchmark for the field of food computing. This dataset encompasses over 13,000 entities including food products, quantities and their corresponding units, names of cooking processes, physical properties of ingredients, their intended uses and flavors, and so on. The development of TASTEset involved manual collection and annotation of recipes from multiple websites, with entity recognition performed using the BRAT annotation tool. TASTEset has a wide range of application scenarios, such as recipe similarity analysis, deep food knowledge-based recipe recommendation, multilingual recipe translation, novel recipe generation and nutritional component estimation, among others. It is intended to resolve complex information extraction issues in the field of food computing.
提供机构:
华沙理工大学数学与信息科学学院
创建时间:
2022-04-16
搜集汇总
数据集介绍

构建方式
TASTEset数据集的构建过程涉及从多个知名食谱网站(如Allrecipes、Food.com、Tasty和Yummly)中爬取700份食谱文本,并利用BRAT标注工具对这些食谱中的成分及其属性进行手动标注。标注过程中,研究人员定义了9种实体类型,包括食品名称、数量、单位、加工方式、物理特性、颜色、味道、用途和部分。这些实体类型涵盖了食谱中成分的多个维度,确保了数据集的多样性和复杂性。
特点
TASTEset数据集的特点在于其丰富的实体类型和细粒度的标注信息。数据集包含超过13,000个实体,涵盖了食品、数量、单位、加工方式等多个维度。此外,数据集中还包含了一些不常见的实体类型,如颜色和味道,这些实体在食谱分析中具有重要的语义信息。数据集的复杂性和多样性为自然语言处理模型提供了挑战,尤其是在处理不连续标注和多义词时。
使用方法
TASTEset数据集主要用于训练和评估命名实体识别(NER)模型,特别是在食品计算领域。研究人员可以使用该数据集来开发能够从食谱文本中提取关键信息的模型,如成分名称、数量、单位等。数据集还提供了多个基线模型的评估结果,包括BERT和LUKE等先进模型,用户可以通过这些基线模型进行对比实验,进一步优化和改进自己的模型。此外,数据集还可用于食谱推荐、营养分析等应用场景。
背景与挑战
背景概述
TASTEset数据集由华沙理工大学和波兹南理工大学的科研团队于2022年推出,旨在填补食品计算领域中自然语言处理(NLP)任务的空白。该数据集包含700个食谱,涵盖了超过13,000个实体,涉及食品、数量、单位、烹饪过程、物理特性、颜色、味道、用途和部分等多个类别。TASTEset的创建是为了推动食谱信息的深度提取与分析,特别是在健康管理和个性化饮食推荐系统中的应用。该数据集不仅为食品计算领域提供了新的基准,还为NLP模型在复杂实体识别任务中的表现提供了挑战。
当前挑战
TASTEset数据集在解决食品计算领域的实体识别问题时面临多重挑战。首先,食谱中的实体类型多样且语义复杂,例如同一词汇在不同上下文中可能代表不同的实体(如‘garlic’可以是食品实体或味道实体)。其次,数据集中存在大量不连续的实体标注,这对传统的命名实体识别(NER)模型提出了更高的要求。此外,数据集的构建过程中,研究人员需要处理食谱文本中的噪声、拼写错误以及复杂的实体关系,这些因素增加了数据标注的难度。尽管现有的NER模型在常见实体上表现良好,但在处理罕见实体(如颜色、味道和用途)时仍存在显著的性能瓶颈。
常用场景
经典使用场景
TASTEset数据集在食品计算领域中被广泛用于命名实体识别(NER)任务,特别是在食谱文本中提取关键信息。该数据集包含700个食谱,涵盖了超过13,000个实体,如食材名称、数量、单位、烹饪过程等。通过使用BERT、LUKE等先进的深度学习模型,研究者能够在食谱文本中精确识别这些实体,从而为食谱推荐、营养分析等应用提供支持。
实际应用
TASTEset数据集在实际应用中具有广泛的潜力。首先,它可以用于构建智能食谱推荐系统,帮助用户根据个人健康需求选择合适的食谱。其次,该数据集可以用于营养分析,通过识别食谱中的食材和其加工方式,评估食谱的营养价值。此外,TASTEset还可以用于跨语言食谱翻译,帮助用户理解不同文化中的食谱。最后,该数据集还可以用于生成新的食谱,通过分析现有食谱中的食材组合和烹饪过程,生成创新的食谱建议。
衍生相关工作
TASTEset数据集的发布推动了食品计算领域的多项研究。基于该数据集,研究者开发了多种NER模型,如BERT、LUKE等,这些模型在食谱文本中的实体识别任务中表现出色。此外,TASTEset还激发了关于食谱相似性分析、食谱生成和营养评估的研究。例如,研究者利用该数据集开发了健康饮食推荐系统,能够根据用户的健康需求推荐合适的食谱。TASTEset还为跨语言食谱翻译和食谱生成提供了数据支持,推动了这些领域的技术进步。
以上内容由遇见数据集搜集并总结生成



