five

NGQA|个性化营养数据集|健康推理数据集

收藏
arXiv2024-12-20 更新2024-12-24 收录
个性化营养
健康推理
下载链接:
http://arxiv.org/abs/2412.15547v1
下载链接
链接失效反馈
资源简介:
NGQA是一个专门为个性化营养健康推理设计的图问题回答数据集,由圣母大学等机构创建。该数据集利用了美国国家健康与营养调查(NHANES)和食品与营养数据库(FNDDS)的数据,包含5644名用户的详细健康信息和饮食习惯,以及849种食品的营养成分。数据集通过多步骤的标注过程,将用户的健康状况与食品的营养标签进行匹配,旨在评估特定食品对用户的健康影响。NGQA数据集的应用领域主要是个性化营养健康推理,旨在解决个性化饮食推荐和健康管理的问题。
提供机构:
圣母大学, 布兰迪斯大学, IBM研究院, 康涅狄格大学
创建时间:
2024-12-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
NGQA数据集通过整合美国国家健康与营养调查(NHANES)和食品与营养数据库(FNDDS)的数据构建而成。NHANES提供了详细的个人健康信息、饮食习惯和食物摄入记录,而FNDDS则提供了食物的营养成分和分类信息。通过将这些数据整合为知识图谱,NGQA能够评估特定食物对特定用户的健康影响,并提供关键营养素的解释。数据集的问题设置分为稀疏、标准和复杂三种难度,涵盖了从简单到复杂的个性化营养推理任务。
特点
NGQA数据集的显著特点在于其个性化营养推理的能力。它不仅包含了用户的医疗信息,还通过知识图谱的形式捕捉了用户健康状况与食物营养之间的复杂关系。数据集中的问题设置分为稀疏、标准和复杂三种难度,能够有效评估模型在不同信息量和复杂度下的推理能力。此外,NGQA还提供了多标签分类和文本生成等下游任务,进一步增强了其在个性化营养健康领域的应用潜力。
使用方法
NGQA数据集可用于评估和训练模型在个性化营养推理任务中的表现。用户可以通过数据集中的稀疏、标准和复杂问题设置,分别测试模型在不同信息量下的推理能力。数据集支持三种下游任务:二分类(判断食物是否适合用户)、多标签分类(识别与用户健康状况相关的营养标签)和文本生成(生成解释食物健康与否的自然语言描述)。通过这些任务,研究人员可以全面评估模型在个性化营养推理中的表现,并进一步优化模型的推理能力。
背景与挑战
背景概述
NGQA数据集由Notre Dame大学、Brandeis大学、IBM研究院和Connecticut大学的多位研究人员共同创建,旨在解决个性化营养健康推理中的关键挑战。该数据集首次将用户特定的医疗信息引入营养问答任务,填补了现有数据集缺乏个性化数据的空白。NGQA利用美国国家健康与营养调查(NHANES)和食品与营养数据库(FNDDS)的数据,构建了一个基于知识图谱的问答基准,能够评估特定食物对用户的健康影响,并提供关键营养成分的解释。该数据集的推出不仅推动了个性化营养健康研究,还为图谱问答(GraphQA)领域提供了新的研究方向。
当前挑战
NGQA数据集面临的主要挑战包括:1) 个性化营养推理的复杂性,现有的大规模语言模型(LLMs)在处理个性化健康饮食推理时,难以应对领域特定的复杂性;2) 数据构建过程中的挑战,如用户医疗数据的隐私保护和数据标注的准确性。此外,现有基准未能充分捕捉个性化健康饮食推理的复杂性,导致模型评估和改进的困难。NGQA通过引入复杂问题设置和多任务评估,有效挑战了现有模型的推理能力,推动了个性化营养健康和图谱问答领域的研究进展。
常用场景
经典使用场景
NGQA数据集的经典使用场景在于个性化营养健康推理,特别是在评估特定食物对用户健康状况的适宜性。通过结合用户的医疗信息和食物的营养成分,该数据集能够支持复杂的推理任务,如判断某种食物是否适合患有特定疾病的用户,并提供详细的解释。这种场景在个性化饮食建议、健康管理平台以及营养师辅助系统中具有广泛的应用潜力。
衍生相关工作
NGQA数据集的推出催生了一系列相关研究工作,特别是在个性化营养健康推理和图问题回答(GraphQA)领域。许多研究者基于NGQA开发了新的模型和算法,以应对数据集中的复杂推理任务。此外,NGQA还启发了其他领域的研究,如知识图谱增强生成(Graph-RAG)和多标签分类任务。这些衍生工作不仅推动了个性化营养健康推理的研究进展,也为图问题回答领域的扩展提供了新的思路。
数据集最近研究
最新研究方向
NGQA数据集在个性化营养健康推理领域引领了前沿研究,通过整合用户特定的医疗信息,构建了一个针对个性化营养健康推理的知识图谱问答基准。该数据集不仅解决了现有营养问答系统中缺乏个性化和用户特定健康数据的问题,还通过引入复杂的问题设置和多任务评估,推动了图谱问答(GraphQA)研究的发展。NGQA的推出填补了个性化营养健康推理领域的空白,为大型语言模型(LLMs)在该领域的应用提供了新的挑战和评估标准,进一步促进了个性化营养健康和图谱问答技术的创新与进步。
相关研究论文
  • 1
    NGQA: A Nutritional Graph Question Answering Benchmark for Personalized Health-aware Nutritional Reasoning圣母大学, 布兰迪斯大学, IBM研究院, 康涅狄格大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

AFD-dataset

我们创建了迄今为止最大的亚洲人脸数据集,包含360,000张人脸图片,涉及2019个人。相比之下,第二大的亚洲人脸数据集CASIA-FaceV5仅包括2500张图片和500个人。

github 收录

MID-Ship

MID-Ship是一个用于复杂海上船舶导航行为的数据集,由上海海事大学创建,旨在解决船舶目标检测中的遮挡和密集交互问题。该数据集包含5673张图像,总计135,884个精细标注的目标实例,涵盖多种海上场景,如不同天气条件下的船舶相遇、靠泊操作、小目标聚集和部分遮挡等。数据集通过高分辨率视频片段采集,覆盖43个不同的可航水域,并包含多种天气和光照条件,增强了数据集的多样性和实用性。MID-Ship主要应用于智能海上交通监控系统和自主船舶导航,旨在提高复杂环境下的船舶检测和跟踪能力,减少海上事故。

arXiv 收录