Open Diet Data
收藏github2026-01-16 更新2026-02-06 收录
下载链接:
https://github.com/Syntropy-Health/open-diet-data
下载链接
链接失效反馈官方服务:
资源简介:
该仓库聚合了权威的开源营养数据库,用于AI驱动的饮食推荐系统。它作为Diet Insight Engine和相关Syntropy Health应用程序的数据基础。
This repository aggregates authoritative open-source nutritional databases, designed for AI-driven dietary recommendation systems. It serves as the foundational data resource for the Diet Insight Engine and the associated Syntropy Health applications.
创建时间:
2026-01-15
原始信息汇总
Open Diet Data 数据集概述
数据集简介
这是一个用于RAG驱动的健康应用程序的开源营养与膳食补充剂数据源集合。它为AI驱动的饮食推荐系统提供数据基础,是Diet Insight Engine及相关Syntropy Health应用程序的数据基础。
数据来源
| 来源 | 描述 | 数据项数量 | 是否需要API密钥 |
|---|---|---|---|
| USDA FoodData Central | 美国黄金标准营养数据库 | 90万+种食物 | ❌ 否 |
| OpenNutrition MCP | 用于LLM食物查询的MCP服务器 | 30万+种食物 | ❌ 否 |
| NIH DSLD | 膳食补充剂标签数据库 | 10万+种产品 | ❌ 否 |
数据结构与内容
USDA FoodData Central
- 来源:https://fdc.nal.usda.gov/
- 许可:公共领域(美国政府)
- 下载内容:
- Foundation Foods:约50 MB,包含详细营养素的完整食物。
- SR Legacy:约30 MB,历史USDA参考数据。
- Branded Foods:约2 GB,带有标签的商业产品。
- 输出文件:
output/usda/usda_food_nutrition_data.csv - 数据内容:包含90万+种食物条目,涵盖70+种营养素列(维生素、矿物质、氨基酸)、份量大小与克重、品牌信息(针对品牌食品)以及食物类别。
OpenNutrition MCP Server
- 来源:https://www.opennutrition.app/
- 许可:MIT
- 输出:
mcp-opennutrition/build/index.js:MCP服务器入口。mcp-opennutrition/build/opennutrition.db:SQLite数据库。
- 可用MCP工具:
search_foods:按名称/品牌搜索。browse_foods:分页食物列表。get_food:按食物ID获取。barcode_lookup:按EAN-13条形码查找。
NIH Dietary Supplement Label Database (DSLD)
- 来源:https://dsld.od.nih.gov/
- API文档:https://dsld.od.nih.gov/api-guide
- 许可:公共领域(美国政府)
- API端点(无需密钥):
GET /dsld/v9/browse:搜索产品。GET /dsld/v9/label/{id}:获取产品标签。GET /dsld/v9/ingredient:按成分搜索。
数据处理与嵌入生成
- 脚本:
scripts/generate-embeddings.py - 生成RAG嵌入的选项:
- 使用OpenAI(云端):需要设置
OPENAI_API_KEY环境变量。 - 使用本地模型:使用sentence-transformers(all-MiniLM-L6-v2),无需API密钥。
- 使用OpenAI(云端):需要设置
- 输出:
output/embeddings/usda_embeddings.json
环境变量
| 变量 | 是否必需 | 描述 |
|---|---|---|
OPENAI_API_KEY |
可选 | 用于云端嵌入生成(获取地址:https://platform.openai.com/api-keys) |
主要用途
- RAG驱动的饮食推荐:按营养成分查询食物。
- 症状-缺乏关联:将症状映射到营养缺乏症。
- LLM食物查询:通过MCP使Claude/GPT能够查找营养数据。
- 补充剂验证:与NIH DSLD交叉参考剂量。
- 食谱营养分析:计算食谱的营养总量。
许可信息
- USDA FoodData Central:公共领域(美国政府)。
- OpenNutrition:MIT许可证。
- NIH DSLD:公共领域(美国政府)。
- 脚本与文档:MIT许可证。
官方数据源链接
| 来源 | 网站 | API文档 |
|---|---|---|
| USDA FDC | https://fdc.nal.usda.gov/ | https://fdc.nal.usda.gov/download-datasets/ |
| OpenNutrition | https://www.opennutrition.app/ | N/A(本地) |
| NIH DSLD | https://dsld.od.nih.gov/ | https://dsld.od.nih.gov/api-guide |
搜集汇总
数据集介绍

构建方式
在营养信息学领域,数据集的构建质量直接决定了后续应用的可靠性。Open Diet Data 数据集通过系统整合多个权威开源营养数据库而形成,其构建过程体现了严谨的数据工程方法。该数据集主要聚合了美国农业部食品数据中心(USDA FoodData Central)、OpenNutrition MCP 服务器以及美国国立卫生研究院膳食补充剂标签数据库(NIH DSLD)三大核心来源。构建流程采用模块化脚本自动化执行,包括数据下载、格式转换与本地服务器构建。例如,通过专用脚本从官方API获取原始数据,并处理为结构化的CSV文件或本地SQLite数据库,确保了数据的完整性与可访问性,为基于检索增强生成(RAG)的健康应用提供了坚实的数据基础。
特点
该数据集在营养与膳食补充剂数据领域展现出显著的特点。其核心优势在于集成了覆盖范围广泛且权威性高的多源数据,总计包含超过130万条食品与补充剂记录。数据内容极为详尽,例如USDA部分提供了超过70种营养素(包括维生素、矿物质和氨基酸)的量化信息,并涵盖品牌、份量及食品类别等多维度属性。数据集设计充分考虑了人工智能应用场景,不仅提供原始数据,还内置了用于大型语言模型查询的MCP服务器工具,支持通过名称、品牌甚至条形码进行高效检索。此外,所有数据源均为公开领域或采用宽松许可证,无需API密钥即可本地化部署与使用,极大降低了研究与开发的门槛。
使用方法
为赋能智能健康应用,该数据集提供了清晰且灵活的使用路径。用户可通过一键式脚本快速完成仓库克隆与所有数据源的初始化设置,实现开箱即用。数据集的核心使用方法围绕其提供的多种接口展开:对于批量分析,可调用脚本将USDA数据导出为CSV文件进行离线处理;对于实时交互查询,则可通过配置并启动本地的OpenNutrition MCP服务器,使Claude、GPT等大型语言模型能够直接调用搜索、浏览等工具函数来获取精准营养信息。同时,针对膳食补充剂验证等特定任务,提供了直接查询NIH DSLD API的示例脚本。为进一步构建RAG系统,数据集还附带了生成向量嵌入的脚本,支持使用OpenAI云服务或本地sentence-transformers模型,从而将非结构化的营养数据转化为可供语义搜索的高维向量。
背景与挑战
背景概述
在精准营养与人工智能交叉领域,数据驱动的个性化饮食建议系统正成为研究热点。Open Diet Data数据集由Syntropy Health机构创建并维护,旨在为基于检索增强生成(RAG)技术的健康应用提供开源营养与膳食补充剂数据基础。该数据集整合了美国农业部食品数据中心(USDA FoodData Central)、OpenNutrition MCP服务器以及美国国立卫生研究院膳食补充剂标签数据库(NIH DSLD)等权威公开数据源,覆盖超过百万种食品与补充剂产品。其核心研究问题聚焦于如何构建高质量、可访问的结构化营养数据库,以支持AI在饮食推荐、症状与营养缺乏关联分析等场景中的可靠应用,对推动营养信息学与个性化医疗的融合发展具有重要影响力。
当前挑战
该数据集致力于解决营养信息学中食品与补充剂数据的标准化整合与智能查询挑战。领域内主要难题在于如何从异构、多源的数据中提取一致且可计算的营养信息,以支持精准的膳食分析与推荐。在构建过程中,数据集面临多重技术挑战:首先,需要处理来自USDA、NIH等不同机构的海量数据,涉及数据格式统一、字段映射与质量清洗;其次,为支持RAG应用,需高效生成文本嵌入向量,并平衡本地计算与云端API的性能与成本;此外,集成MCP服务器以实现大语言模型的实时查询,要求设计稳定的数据接口与查询优化策略。这些挑战共同构成了构建可靠、可扩展营养知识库的关键障碍。
常用场景
经典使用场景
在营养信息学与人工智能交叉领域,Open Diet Data数据集为构建基于检索增强生成(RAG)的饮食推荐系统提供了核心数据基础。该数据集整合了美国农业部食品数据中心、开放营养MCP服务器及美国国立卫生研究院膳食补充剂标签数据库等权威来源,覆盖超过百万种食品与补充剂的详细营养成分。研究人员与开发者能够利用其结构化数据,通过自然语言查询实现精准的食物营养成分检索、膳食模式分析以及个性化营养建议生成,极大地推动了智能健康应用的开发进程。
实际应用
在实际应用层面,Open Diet Data数据集已集成至Syntropy Health的饮食洞察引擎等健康产品中,服务于智能膳食管理、症状与营养缺乏关联分析以及补充剂剂量验证等场景。开发者可借助其提供的MCP服务器工具,使大型语言模型能够实时查询营养数据,从而赋能健康聊天机器人、个性化食谱应用及电子商务平台中的营养标签自动生成。该数据集降低了构建专业级营养应用的技术门槛,推动了从研究到产业落地的转化。
衍生相关工作
基于Open Diet Data数据集,已衍生出多项经典工作与工具生态。其核心支撑的Diet Insight Engine项目,实现了症状-饮食优化器的开发,能够根据用户症状推荐营养干预方案。同时,数据集通过标准化的MCP接口,促进了与Claude、GPT等大型语言模型的深度集成,催生了新型的智能营养问答代理。此外,围绕该数据集构建的本地嵌入生成脚本与自动化处理流程,也为后续的食品知识图谱构建与多模态营养分析研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



