Aligned Recipe Actions (ARA) corpus
收藏github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/interactive-cookbook/ara
下载链接
链接失效反馈官方服务:
资源简介:
我们的语料库包含来自[Microsoft Research Multimodal Aligned Recipe Corpus](https://github.com/microsoft/multimodal-aligned-recipe-corpus)的10种不同菜肴的食谱。每种菜肴都有11个解析为动作图的食谱。我们提供了**每种菜肴10对食谱**之间动作短语的众包动作对齐。这些对齐指示了来自两个食谱中较短的一个动作与来自较长食谱的动作最佳对应。
Our corpus comprises recipes for 10 distinct dishes sourced from the [Microsoft Research Multimodal Aligned Recipe Corpus](https://github.com/microsoft/multimodal-aligned-recipe-corpus). Each dish is represented by 11 recipes parsed into action graphs. We provide **10 pairs of recipes per dish** with crowdsourced action alignments of action phrases. These alignments indicate the best correspondence between an action from the shorter recipe and an action from the longer recipe.
创建时间:
2021-09-08
原始信息汇总
Aligned Recipe Actions (ARA) 数据集概述
数据集来源
- 论文: Aligning Actions Across Recipe Graphs
- 作者: Lucia Donatelli, Theresa Schmidt, Debanjali Biswas, Arne Köhn, Fangzhou Zhai, Alexander Koller
- 发表会议: 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP)
数据集内容
- 组成: 包含10种不同菜肴的食谱,每种菜肴有11个解析成动作图的食谱。
- 特色: 提供人群来源的动作对齐,每种菜肴有10对食谱的动作对齐,指示两个食谱中较短的食谱动作与较长食谱动作的最佳对应关系。
数据集版本
- ARA 1.1: 数据集的更新版本,修复了原始版本中部分句子内标点符号缺失的问题。
- ARA 1.0: 原始版本,作为发布版本ARA 1.0 Corpus提供。
许可证
- Apache 2.0
- Creative Commons Attribution 4.0 International License
搜集汇总
数据集介绍

构建方式
在构建Aligned Recipe Actions (ARA)语料库时,研究团队精心挑选了来自Microsoft Research Multimodal Aligned Recipe Corpus的10种不同菜肴的食谱。每种菜肴对应11个食谱,这些食谱被解析为动作图。随后,通过众包方式,对每种菜肴的10对食谱进行了动作对齐,即确定较短食谱中的某个动作与较长食谱中的哪个动作最为对应。此过程确保了数据集的高质量和实用性。
特点
ARA语料库的显著特点在于其精细的动作对齐机制,这不仅增强了食谱间动作的对应关系,还为烹饪过程中的动作序列提供了明确的参照。此外,该数据集包含了10种菜肴的多样化食谱,每种菜肴均有11个不同的版本,极大地丰富了数据集的多样性和深度。
使用方法
使用ARA语料库时,研究者可以利用其提供的动作对齐信息,进行食谱分析、烹饪动作序列建模以及跨食谱的动作比较等研究。数据集的结构化格式使得数据提取和处理变得简便,适合用于自然语言处理和烹饪领域的相关研究。
背景与挑战
背景概述
Aligned Recipe Actions (ARA) corpus 是由Lucia Donatelli、Theresa Schmidt、Debanjali Biswas、Arne Köhn、Fangzhou Zhai和Alexander Koller于2021年创建的,旨在解决食谱动作图之间的对齐问题。该数据集源自Microsoft Research Multimodal Aligned Recipe Corpus,包含10种不同菜肴的食谱,每种菜肴有11个解析为动作图的食谱。通过众包方式,研究人员为每种菜肴的10对食谱提供了动作对齐信息,这些对齐信息指示了两个食谱中动作的最佳对应关系。ARA corpus的创建不仅推动了自然语言处理领域中食谱解析与对齐的研究,还为烹饪领域的自动化提供了新的数据支持。
当前挑战
ARA corpus在构建过程中面临的主要挑战包括:1) 食谱文本的复杂性和多样性,导致动作解析的难度增加;2) 众包对齐过程中的一致性和准确性问题,确保对齐结果的可靠性;3) 数据集版本更新(如ARA 1.0到ARA 1.1)中,处理和恢复缺失的标点符号,确保数据的一致性和完整性。此外,该数据集在应用中还需解决食谱动作对齐模型的泛化能力问题,以适应不同文化和语言背景下的食谱。
常用场景
经典使用场景
在自然语言处理领域,Aligned Recipe Actions (ARA) corpus 数据集的经典使用场景主要集中在食谱动作对齐任务中。该数据集通过提供10种不同菜肴的食谱,每种菜肴包含11个解析为动作图的食谱,以及每对食谱之间的众包动作对齐信息,为研究者提供了一个丰富的资源库。这些对齐信息帮助模型识别和理解不同食谱中动作的对应关系,从而在食谱生成、动作识别和食谱推荐系统中发挥重要作用。
实际应用
在实际应用中,ARA corpus 数据集被广泛用于开发智能烹饪助手和食谱推荐系统。通过分析和利用食谱中的动作对齐信息,这些系统能够更准确地理解和推荐烹饪步骤,从而提升用户体验。此外,该数据集还可用于烹饪教育软件的开发,帮助用户学习新的烹饪技巧和方法。
衍生相关工作
ARA corpus 数据集的发布催生了一系列相关研究工作。例如,研究者们基于该数据集开发了多种食谱动作对齐模型,这些模型不仅提高了食谱生成的准确性,还推动了自然语言处理技术在烹饪领域的应用。此外,该数据集还激发了跨语言食谱对齐和多模态食谱分析的研究,为烹饪领域的学术研究提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



