five

USDA FoodData Central Dataset|食品信息数据集|营养分析数据集

收藏
github2024-11-07 更新2024-11-08 收录
食品信息
营养分析
下载链接:
https://github.com/jack-tol/usda-food-data-pipeline
下载链接
链接失效反馈
资源简介:
USDA FoodData Central数据集是一个公开可访问且全面的资源,提供美国消费者货架上食品的信息。该数据集包含34个CSV文件,涵盖了食品的各种信息,包括成分、营养成分和份量。
创建时间:
2024-10-12
原始信息汇总

USDA Food Data Pipeline & Food Assistant

概述

USDA Food Data Pipeline 是一个用于处理和提炼 USDA FoodData Central 数据集的代码库。该数据集是一个公开可访问的资源,提供了美国消费者货架上食品的详细信息。该管道从 USDA FoodData Central 中整合和清理数据,涵盖 34 个 CSV 文件,创建一个单一的结构化数据集。该管道自动化了数据的下载、清理、合并和标准化过程,使其适用于机器学习和分析。

USDA Food Assistant 是一个交互式工具,允许用户以对话格式探索食品数据。该助手结合了语义搜索和语言生成技术,为用户提供关于成分、营养和份量的上下文相关答案。

功能

  • 数据管道:自动化数据检索、清理和转换过程,适用于 USDA FoodData Central 数据集。
  • 交互式助手:允许用户查询数据集并接收详细的食品信息响应。
  • 语义搜索:使用 Pinecone 索引和 multilingual-e5-large 嵌入模型实现基于相似性的食品数据检索。
  • 机器学习就绪数据集:输出一个结构化的数据集,适用于各种应用。

数据集访问

通过该管道清理的 USDA Branded Food 数据集可在 HuggingFace Datasets 上获取,链接为:https://huggingface.co/datasets/jacktol/usda_branded_food_data

演示

USDA Food Assistant 托管在 HuggingFace Spaces 上,可访问链接为:https://huggingface.co/spaces/jacktol/usda-food-assistant

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建USDA FoodData Central数据集的过程中,采用了自动化数据处理管道,该管道整合并清洗了来自USDA FoodData Central的34个CSV文件,最终生成一个结构化的单一数据集。此过程包括数据的自动下载、清洗、合并和标准化,确保数据集适用于机器学习和分析。
特点
USDA FoodData Central数据集的特点在于其自动化数据处理管道和交互式助手的结合。数据集不仅经过精细的清洗和转换,还支持语义搜索,利用Pinecone索引和`multilingual-e5-large`嵌入模型进行相似性检索。此外,该数据集已准备好用于各种机器学习应用,为研究人员和开发者提供了丰富的营养和食品信息。
使用方法
使用USDA FoodData Central数据集时,用户可以通过交互式助手进行查询,获取详细的食品信息和营养相关问题的答案。该助手结合了语义搜索和语言生成技术,能够提供上下文相关的回答。此外,数据集可以直接用于机器学习模型的训练和分析,支持多种应用场景,如食品推荐系统、营养分析工具等。
背景与挑战
背景概述
USDA FoodData Central Dataset是由美国农业部(USDA)创建的一个全面且公开可访问的数据资源,旨在提供美国市场上消费者可获得的各种食品信息。该数据集的构建始于对34个CSV文件的数据整合与清洗,通过自动化流程将这些数据转化为一个结构化的数据集,便于机器学习和分析。主要研究人员或机构为美国农业部,其核心研究问题在于如何高效地整理和利用食品数据,以支持营养学研究、食品行业分析以及公众健康信息的传播。该数据集对相关领域的影响力在于其为食品数据的处理和应用提供了一个标准化的框架,促进了数据驱动的决策和研究。
当前挑战
USDA FoodData Central Dataset在构建过程中面临多项挑战。首先,数据来源的多样性和复杂性要求高效的自动化数据处理和清洗技术,以确保数据的准确性和一致性。其次,如何将庞大的食品数据转化为机器学习友好的格式,以便于各种应用的开发,是一个技术难题。此外,该数据集在实际应用中还需解决用户查询的效率和准确性问题,特别是在构建交互式工具如USDA Food Assistant时,如何实现语义搜索和语言生成的高效结合,以提供用户友好的食品信息查询体验,是一个重要的挑战。
常用场景
经典使用场景
在食品科学和营养学领域,USDA FoodData Central Dataset 被广泛用于分析和研究美国市场上各类食品的营养成分。通过该数据集,研究人员可以深入探讨不同食品的营养价值,从而为公众提供更为科学的饮食建议。此外,数据集的结构化特性使其成为机器学习模型的理想输入,用于预测食品成分或评估特定饮食方案的效果。
衍生相关工作
基于 USDA FoodData Central Dataset,许多研究者和开发者开展了相关工作,推动了食品科学和营养学领域的发展。例如,有研究利用该数据集开发了食品成分预测模型,通过机器学习算法预测未知食品的营养成分。此外,还有工作聚焦于数据集的语义搜索和信息检索,提升了用户查询食品信息的效率和准确性。这些衍生工作不仅丰富了数据集的应用场景,也促进了相关技术的创新和进步。
数据集最近研究
最新研究方向
在食品科学与营养学领域,USDA FoodData Central Dataset的最新研究方向主要集中在数据整合与智能交互工具的开发。通过自动化数据处理管道,研究者们致力于将分散的食品数据转化为结构化、机器学习友好的格式,从而为营养分析和食品推荐系统提供坚实基础。此外,基于语义搜索和自然语言生成技术的交互式食品助手,正成为研究热点,旨在为用户提供个性化的营养信息查询服务,推动食品数据在日常生活中的应用与普及。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集,专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象,包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息,并提供了加载和评估数据集的示例代码。

huggingface 收录