USDA FoodData Central Dataset|食品信息数据集|营养分析数据集
收藏USDA Food Data Pipeline & Food Assistant
概述
USDA Food Data Pipeline 是一个用于处理和提炼 USDA FoodData Central 数据集的代码库。该数据集是一个公开可访问的资源,提供了美国消费者货架上食品的详细信息。该管道从 USDA FoodData Central 中整合和清理数据,涵盖 34 个 CSV 文件,创建一个单一的结构化数据集。该管道自动化了数据的下载、清理、合并和标准化过程,使其适用于机器学习和分析。
USDA Food Assistant 是一个交互式工具,允许用户以对话格式探索食品数据。该助手结合了语义搜索和语言生成技术,为用户提供关于成分、营养和份量的上下文相关答案。
功能
- 数据管道:自动化数据检索、清理和转换过程,适用于 USDA FoodData Central 数据集。
- 交互式助手:允许用户查询数据集并接收详细的食品信息响应。
- 语义搜索:使用 Pinecone 索引和
multilingual-e5-large嵌入模型实现基于相似性的食品数据检索。 - 机器学习就绪数据集:输出一个结构化的数据集,适用于各种应用。
数据集访问
通过该管道清理的 USDA Branded Food 数据集可在 HuggingFace Datasets 上获取,链接为:https://huggingface.co/datasets/jacktol/usda_branded_food_data。
演示
USDA Food Assistant 托管在 HuggingFace Spaces 上,可访问链接为:https://huggingface.co/spaces/jacktol/usda-food-assistant。

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
ERIC (Education Resources Information Center)
ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。
eric.ed.gov 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
Photovoltaic power plant data
包括经纬度、电源板模型、NWP等信息。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
