USDA FoodData Central Dataset

github2024-11-07 更新2024-11-08 收录

下载链接：

https://github.com/jack-tol/usda-food-data-pipeline

下载链接

链接失效反馈

官方服务：

资源简介：

USDA FoodData Central数据集是一个公开可访问且全面的资源，提供美国消费者货架上食品的信息。该数据集包含34个CSV文件，涵盖了食品的各种信息，包括成分、营养成分和份量。

The USDA FoodData Central dataset is a publicly accessible and comprehensive resource that provides information about food products available on the shelves for U.S. consumers. This dataset includes 34 CSV files covering a wide range of food-related information, such as ingredients, nutritional contents, and serving sizes.

创建时间：

2024-10-12

原始信息汇总

USDA Food Data Pipeline & Food Assistant

概述

USDA Food Data Pipeline 是一个用于处理和提炼 USDA FoodData Central 数据集的代码库。该数据集是一个公开可访问的资源，提供了美国消费者货架上食品的详细信息。该管道从 USDA FoodData Central 中整合和清理数据，涵盖 34 个 CSV 文件，创建一个单一的结构化数据集。该管道自动化了数据的下载、清理、合并和标准化过程，使其适用于机器学习和分析。

USDA Food Assistant 是一个交互式工具，允许用户以对话格式探索食品数据。该助手结合了语义搜索和语言生成技术，为用户提供关于成分、营养和份量的上下文相关答案。

功能

数据管道：自动化数据检索、清理和转换过程，适用于 USDA FoodData Central 数据集。
交互式助手：允许用户查询数据集并接收详细的食品信息响应。
语义搜索：使用 Pinecone 索引和 multilingual-e5-large 嵌入模型实现基于相似性的食品数据检索。
机器学习就绪数据集：输出一个结构化的数据集，适用于各种应用。

数据集访问

通过该管道清理的 USDA Branded Food 数据集可在 HuggingFace Datasets 上获取，链接为：https://huggingface.co/datasets/jacktol/usda_branded_food_data。

演示

USDA Food Assistant 托管在 HuggingFace Spaces 上，可访问链接为：https://huggingface.co/spaces/jacktol/usda-food-assistant。

搜集汇总

数据集介绍

构建方式

在构建USDA FoodData Central数据集的过程中，采用了自动化数据处理管道，该管道整合并清洗了来自USDA FoodData Central的34个CSV文件，最终生成一个结构化的单一数据集。此过程包括数据的自动下载、清洗、合并和标准化，确保数据集适用于机器学习和分析。

特点

USDA FoodData Central数据集的特点在于其自动化数据处理管道和交互式助手的结合。数据集不仅经过精细的清洗和转换，还支持语义搜索，利用Pinecone索引和`multilingual-e5-large`嵌入模型进行相似性检索。此外，该数据集已准备好用于各种机器学习应用，为研究人员和开发者提供了丰富的营养和食品信息。

使用方法

使用USDA FoodData Central数据集时，用户可以通过交互式助手进行查询，获取详细的食品信息和营养相关问题的答案。该助手结合了语义搜索和语言生成技术，能够提供上下文相关的回答。此外，数据集可以直接用于机器学习模型的训练和分析，支持多种应用场景，如食品推荐系统、营养分析工具等。

背景与挑战

背景概述

USDA FoodData Central Dataset是由美国农业部（USDA）创建的一个全面且公开可访问的数据资源，旨在提供美国市场上消费者可获得的各种食品信息。该数据集的构建始于对34个CSV文件的数据整合与清洗，通过自动化流程将这些数据转化为一个结构化的数据集，便于机器学习和分析。主要研究人员或机构为美国农业部，其核心研究问题在于如何高效地整理和利用食品数据，以支持营养学研究、食品行业分析以及公众健康信息的传播。该数据集对相关领域的影响力在于其为食品数据的处理和应用提供了一个标准化的框架，促进了数据驱动的决策和研究。

当前挑战

USDA FoodData Central Dataset在构建过程中面临多项挑战。首先，数据来源的多样性和复杂性要求高效的自动化数据处理和清洗技术，以确保数据的准确性和一致性。其次，如何将庞大的食品数据转化为机器学习友好的格式，以便于各种应用的开发，是一个技术难题。此外，该数据集在实际应用中还需解决用户查询的效率和准确性问题，特别是在构建交互式工具如USDA Food Assistant时，如何实现语义搜索和语言生成的高效结合，以提供用户友好的食品信息查询体验，是一个重要的挑战。

常用场景

经典使用场景

在食品科学和营养学领域，USDA FoodData Central Dataset 被广泛用于分析和研究美国市场上各类食品的营养成分。通过该数据集，研究人员可以深入探讨不同食品的营养价值，从而为公众提供更为科学的饮食建议。此外，数据集的结构化特性使其成为机器学习模型的理想输入，用于预测食品成分或评估特定饮食方案的效果。

衍生相关工作

基于 USDA FoodData Central Dataset，许多研究者和开发者开展了相关工作，推动了食品科学和营养学领域的发展。例如，有研究利用该数据集开发了食品成分预测模型，通过机器学习算法预测未知食品的营养成分。此外，还有工作聚焦于数据集的语义搜索和信息检索，提升了用户查询食品信息的效率和准确性。这些衍生工作不仅丰富了数据集的应用场景，也促进了相关技术的创新和进步。

数据集最近研究