NGQA

Name: NGQA
Creator: 圣母大学, 布兰迪斯大学, IBM研究院, 康涅狄格大学
Published: 2024-12-20 12:13:46
License: 暂无描述

arXiv2024-12-20 更新2024-12-24 收录

下载链接：

http://arxiv.org/abs/2412.15547v1

下载链接

链接失效反馈

官方服务：

资源简介：

NGQA是一个专门为个性化营养健康推理设计的图问题回答数据集，由圣母大学等机构创建。该数据集利用了美国国家健康与营养调查（NHANES）和食品与营养数据库（FNDDS）的数据，包含5644名用户的详细健康信息和饮食习惯，以及849种食品的营养成分。数据集通过多步骤的标注过程，将用户的健康状况与食品的营养标签进行匹配，旨在评估特定食品对用户的健康影响。NGQA数据集的应用领域主要是个性化营养健康推理，旨在解决个性化饮食推荐和健康管理的问题。

NGQA is a graph question answering dataset specifically designed for personalized nutritional health reasoning, developed by institutions including the University of Notre Dame. This dataset leverages data from the U.S. National Health and Nutrition Examination Survey (NHANES) and the Food and Nutritional Database (FNDDS), containing detailed health information and dietary habits of 5,644 users, as well as nutritional components of 849 food items. Through a multi-step annotation process, it matches users' health conditions with the nutritional labels of foods, with the goal of evaluating the health impacts of specific foods on individual users. The primary application scenarios of the NGQA dataset center on personalized nutritional health reasoning, aiming to address challenges such as personalized diet recommendation and health management.

提供机构：

圣母大学, 布兰迪斯大学, IBM研究院, 康涅狄格大学

创建时间：

2024-12-20

搜集汇总

数据集介绍

构建方式

NGQA数据集通过整合美国国家健康与营养调查（NHANES）和食品与营养数据库（FNDDS）的数据构建而成。NHANES提供了详细的个人健康信息、饮食习惯和食物摄入记录，而FNDDS则提供了食物的营养成分和分类信息。通过将这些数据整合为知识图谱，NGQA能够评估特定食物对特定用户的健康影响，并提供关键营养素的解释。数据集的问题设置分为稀疏、标准和复杂三种难度，涵盖了从简单到复杂的个性化营养推理任务。

特点

NGQA数据集的显著特点在于其个性化营养推理的能力。它不仅包含了用户的医疗信息，还通过知识图谱的形式捕捉了用户健康状况与食物营养之间的复杂关系。数据集中的问题设置分为稀疏、标准和复杂三种难度，能够有效评估模型在不同信息量和复杂度下的推理能力。此外，NGQA还提供了多标签分类和文本生成等下游任务，进一步增强了其在个性化营养健康领域的应用潜力。

使用方法

NGQA数据集可用于评估和训练模型在个性化营养推理任务中的表现。用户可以通过数据集中的稀疏、标准和复杂问题设置，分别测试模型在不同信息量下的推理能力。数据集支持三种下游任务：二分类（判断食物是否适合用户）、多标签分类（识别与用户健康状况相关的营养标签）和文本生成（生成解释食物健康与否的自然语言描述）。通过这些任务，研究人员可以全面评估模型在个性化营养推理中的表现，并进一步优化模型的推理能力。

背景与挑战

背景概述

NGQA数据集由Notre Dame大学、Brandeis大学、IBM研究院和Connecticut大学的多位研究人员共同创建，旨在解决个性化营养健康推理中的关键挑战。该数据集首次将用户特定的医疗信息引入营养问答任务，填补了现有数据集缺乏个性化数据的空白。NGQA利用美国国家健康与营养调查（NHANES）和食品与营养数据库（FNDDS）的数据，构建了一个基于知识图谱的问答基准，能够评估特定食物对用户的健康影响，并提供关键营养成分的解释。该数据集的推出不仅推动了个性化营养健康研究，还为图谱问答（GraphQA）领域提供了新的研究方向。

当前挑战

NGQA数据集面临的主要挑战包括：1) 个性化营养推理的复杂性，现有的大规模语言模型（LLMs）在处理个性化健康饮食推理时，难以应对领域特定的复杂性；2) 数据构建过程中的挑战，如用户医疗数据的隐私保护和数据标注的准确性。此外，现有基准未能充分捕捉个性化健康饮食推理的复杂性，导致模型评估和改进的困难。NGQA通过引入复杂问题设置和多任务评估，有效挑战了现有模型的推理能力，推动了个性化营养健康和图谱问答领域的研究进展。

常用场景

经典使用场景

NGQA数据集的经典使用场景在于个性化营养健康推理，特别是在评估特定食物对用户健康状况的适宜性。通过结合用户的医疗信息和食物的营养成分，该数据集能够支持复杂的推理任务，如判断某种食物是否适合患有特定疾病的用户，并提供详细的解释。这种场景在个性化饮食建议、健康管理平台以及营养师辅助系统中具有广泛的应用潜力。

衍生相关工作

NGQA数据集的推出催生了一系列相关研究工作，特别是在个性化营养健康推理和图问题回答（GraphQA）领域。许多研究者基于NGQA开发了新的模型和算法，以应对数据集中的复杂推理任务。此外，NGQA还启发了其他领域的研究，如知识图谱增强生成（Graph-RAG）和多标签分类任务。这些衍生工作不仅推动了个性化营养健康推理的研究进展，也为图问题回答领域的扩展提供了新的思路。

数据集最近研究