DiNeR

github2024-06-07 更新2024-06-12 收录

下载链接：

https://github.com/Jumpy-pku/DiNeR

下载链接

链接失效反馈

官方服务：

资源简介：

DiNeR是一个用于评估组合泛化能力的大型现实数据集，主要用于菜名识别任务。数据集包括训练、验证和TMCD测试集，以及食品、动作和风味的词汇表。

DiNeR is a large-scale real-world dataset designed for evaluating compositional generalization capabilities, primarily utilized in the task of dish name recognition. The dataset encompasses training, validation, and TMCD test sets, along with vocabularies for food items, actions, and flavors.

创建时间：

2024-06-04

原始信息汇总

数据集概述

数据集名称

DiNeR (DIsh NamE Recognition)

数据集内容

tmcd_data.json: 包含训练、验证和TMCD测试集，用于菜名识别任务。
glossary.json: 食品、动作和风味的词汇表。每个字典的键是食品、动作或风味的名称，值是对应的聚类ID。

数据集位置

数据集文件位于data/文件夹中。

数据集用途

用于评估组合泛化能力，特别是在菜名识别任务中。

数据集相关论文

论文标题：DiNeR: A Large Realistic Dataset for Evaluating Compositional Generalization
发表会议：2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023)
论文链接：https://aclanthology.org/2023.emnlp-main.924

数据集引用信息

@inproceedings{hu-etal-2023-diner, title = "{D}i{N}e{R}: A Large Realistic Dataset for Evaluating Compositional Generalization", author = "Hu, Chengang and Liu, Xiao and Feng, Yansong", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.924", doi = "10.18653/v1/2023.emnlp-main.924", pages = "14938--14947", }

搜集汇总

数据集介绍

构建方式

DiNeR数据集的构建基于对真实世界中菜肴名称的深入分析，通过精心设计的流程，将菜肴名称分解为食物、动作和风味等基本成分，并将其映射到相应的集群ID。这一过程不仅确保了数据的高质量，还为后续的模型训练提供了丰富的语义信息。具体而言，数据集的构建包括两个主要部分：一是训练、验证和TMCD测试集的生成，二是食品、动作和风味词汇表的创建与集群化。

使用方法

使用DiNeR数据集进行模型训练和评估时，用户首先需要安装指定的依赖库，如torch和transformers。随后，可以通过运行提供的Python脚本进行模型的微调，包括从基础T5模型或继续预训练的T5模型开始。具体操作包括先对辅助模型进行微调，然后再对主模型进行微调。通过这种方式，用户可以有效地利用DiNeR数据集来提升模型在菜肴名称识别任务中的表现。

背景与挑战

背景概述

DiNeR（DIsh NamE Recognition）数据集是由Hu Chengang、Liu Xiao和Feng Yansong等研究人员在2023年创建的，旨在评估自然语言处理领域中的组合泛化能力。该数据集作为EMNLP 2023主会议论文的一部分发布，聚焦于菜名识别任务，通过提供大规模真实数据，推动了组合泛化研究的发展。DiNeR数据集不仅包含训练、验证和测试集，还提供了食物、动作和风味的词汇表，这些词汇表通过集群ID进行分类，进一步增强了数据集的实用性和研究价值。

当前挑战

DiNeR数据集在构建过程中面临多项挑战。首先，菜名识别任务本身具有高度复杂性，涉及多种语言和文化背景的融合，这要求数据集必须具备广泛的覆盖面和多样性。其次，组合泛化能力的评估需要数据集能够反映出不同成分之间的复杂交互，这对数据集的设计和标注提出了高要求。此外，数据集的构建还需克服数据获取、清洗和标注的难题，确保数据的准确性和一致性。这些挑战共同构成了DiNeR数据集在推动自然语言处理研究中的重要性和复杂性。

常用场景

经典使用场景

在自然语言处理领域，DiNeR数据集的经典使用场景主要集中在菜品名称识别任务上。该数据集通过提供丰富的菜品名称及其对应的成分、动作和风味信息，为研究人员提供了一个评估模型组合泛化能力的理想平台。通过训练和验证，研究人员可以探索和优化模型在处理复杂菜品名称时的表现，从而提升其在实际应用中的准确性和鲁棒性。

解决学术问题

DiNeR数据集解决了自然语言处理中常见的组合泛化问题，特别是在菜品名称识别任务中。该数据集通过提供大规模的真实数据，帮助研究人员评估和改进模型在处理复杂、多成分菜品名称时的表现。这不仅推动了自然语言处理技术的发展，还为相关领域的研究提供了宝贵的资源和基准，具有重要的学术意义和影响。

实际应用

在实际应用中，DiNeR数据集可广泛应用于餐饮行业的自动化系统，如智能点餐系统和菜品推荐系统。通过利用该数据集训练的模型，系统能够更准确地识别和理解用户输入的菜品名称，从而提供更精准的服务。此外，该数据集还可用于开发智能家居设备中的语音识别功能，提升用户在厨房环境中的交互体验。

数据集最近研究