five

USDA FoodData Central Dataset|食品信息数据集|营养分析数据集

收藏
github2024-11-07 更新2024-11-08 收录
食品信息
营养分析
下载链接:
https://github.com/jack-tol/usda-food-data-pipeline
下载链接
链接失效反馈
资源简介:
USDA FoodData Central数据集是一个公开可访问且全面的资源,提供美国消费者货架上食品的信息。该数据集包含34个CSV文件,涵盖了食品的各种信息,包括成分、营养成分和份量。
创建时间:
2024-10-12
原始信息汇总

USDA Food Data Pipeline & Food Assistant

概述

USDA Food Data Pipeline 是一个用于处理和提炼 USDA FoodData Central 数据集的代码库。该数据集是一个公开可访问的资源,提供了美国消费者货架上食品的详细信息。该管道从 USDA FoodData Central 中整合和清理数据,涵盖 34 个 CSV 文件,创建一个单一的结构化数据集。该管道自动化了数据的下载、清理、合并和标准化过程,使其适用于机器学习和分析。

USDA Food Assistant 是一个交互式工具,允许用户以对话格式探索食品数据。该助手结合了语义搜索和语言生成技术,为用户提供关于成分、营养和份量的上下文相关答案。

功能

  • 数据管道:自动化数据检索、清理和转换过程,适用于 USDA FoodData Central 数据集。
  • 交互式助手:允许用户查询数据集并接收详细的食品信息响应。
  • 语义搜索:使用 Pinecone 索引和 multilingual-e5-large 嵌入模型实现基于相似性的食品数据检索。
  • 机器学习就绪数据集:输出一个结构化的数据集,适用于各种应用。

数据集访问

通过该管道清理的 USDA Branded Food 数据集可在 HuggingFace Datasets 上获取,链接为:https://huggingface.co/datasets/jacktol/usda_branded_food_data

演示

USDA Food Assistant 托管在 HuggingFace Spaces 上,可访问链接为:https://huggingface.co/spaces/jacktol/usda-food-assistant

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建USDA FoodData Central数据集的过程中,采用了自动化数据处理管道,该管道整合并清洗了来自USDA FoodData Central的34个CSV文件,最终生成一个结构化的单一数据集。此过程包括数据的自动下载、清洗、合并和标准化,确保数据集适用于机器学习和分析。
特点
USDA FoodData Central数据集的特点在于其自动化数据处理管道和交互式助手的结合。数据集不仅经过精细的清洗和转换,还支持语义搜索,利用Pinecone索引和`multilingual-e5-large`嵌入模型进行相似性检索。此外,该数据集已准备好用于各种机器学习应用,为研究人员和开发者提供了丰富的营养和食品信息。
使用方法
使用USDA FoodData Central数据集时,用户可以通过交互式助手进行查询,获取详细的食品信息和营养相关问题的答案。该助手结合了语义搜索和语言生成技术,能够提供上下文相关的回答。此外,数据集可以直接用于机器学习模型的训练和分析,支持多种应用场景,如食品推荐系统、营养分析工具等。
背景与挑战
背景概述
USDA FoodData Central Dataset是由美国农业部(USDA)创建的一个全面且公开可访问的数据资源,旨在提供美国市场上消费者可获得的各种食品信息。该数据集的构建始于对34个CSV文件的数据整合与清洗,通过自动化流程将这些数据转化为一个结构化的数据集,便于机器学习和分析。主要研究人员或机构为美国农业部,其核心研究问题在于如何高效地整理和利用食品数据,以支持营养学研究、食品行业分析以及公众健康信息的传播。该数据集对相关领域的影响力在于其为食品数据的处理和应用提供了一个标准化的框架,促进了数据驱动的决策和研究。
当前挑战
USDA FoodData Central Dataset在构建过程中面临多项挑战。首先,数据来源的多样性和复杂性要求高效的自动化数据处理和清洗技术,以确保数据的准确性和一致性。其次,如何将庞大的食品数据转化为机器学习友好的格式,以便于各种应用的开发,是一个技术难题。此外,该数据集在实际应用中还需解决用户查询的效率和准确性问题,特别是在构建交互式工具如USDA Food Assistant时,如何实现语义搜索和语言生成的高效结合,以提供用户友好的食品信息查询体验,是一个重要的挑战。
常用场景
经典使用场景
在食品科学和营养学领域,USDA FoodData Central Dataset 被广泛用于分析和研究美国市场上各类食品的营养成分。通过该数据集,研究人员可以深入探讨不同食品的营养价值,从而为公众提供更为科学的饮食建议。此外,数据集的结构化特性使其成为机器学习模型的理想输入,用于预测食品成分或评估特定饮食方案的效果。
衍生相关工作
基于 USDA FoodData Central Dataset,许多研究者和开发者开展了相关工作,推动了食品科学和营养学领域的发展。例如,有研究利用该数据集开发了食品成分预测模型,通过机器学习算法预测未知食品的营养成分。此外,还有工作聚焦于数据集的语义搜索和信息检索,提升了用户查询食品信息的效率和准确性。这些衍生工作不仅丰富了数据集的应用场景,也促进了相关技术的创新和进步。
数据集最近研究
最新研究方向
在食品科学与营养学领域,USDA FoodData Central Dataset的最新研究方向主要集中在数据整合与智能交互工具的开发。通过自动化数据处理管道,研究者们致力于将分散的食品数据转化为结构化、机器学习友好的格式,从而为营养分析和食品推荐系统提供坚实基础。此外,基于语义搜索和自然语言生成技术的交互式食品助手,正成为研究热点,旨在为用户提供个性化的营养信息查询服务,推动食品数据在日常生活中的应用与普及。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Kaggle Financial Statement Data

该数据集包含公司财务报表的数据,涵盖了多个公司的财务信息,如资产负债表、利润表和现金流量表等。数据以CSV格式提供,便于分析和处理。

www.kaggle.com 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录