USDA FoodData Central Dataset|食品信息数据集|营养分析数据集
收藏USDA Food Data Pipeline & Food Assistant
概述
USDA Food Data Pipeline 是一个用于处理和提炼 USDA FoodData Central 数据集的代码库。该数据集是一个公开可访问的资源,提供了美国消费者货架上食品的详细信息。该管道从 USDA FoodData Central 中整合和清理数据,涵盖 34 个 CSV 文件,创建一个单一的结构化数据集。该管道自动化了数据的下载、清理、合并和标准化过程,使其适用于机器学习和分析。
USDA Food Assistant 是一个交互式工具,允许用户以对话格式探索食品数据。该助手结合了语义搜索和语言生成技术,为用户提供关于成分、营养和份量的上下文相关答案。
功能
- 数据管道:自动化数据检索、清理和转换过程,适用于 USDA FoodData Central 数据集。
- 交互式助手:允许用户查询数据集并接收详细的食品信息响应。
- 语义搜索:使用 Pinecone 索引和
multilingual-e5-large
嵌入模型实现基于相似性的食品数据检索。 - 机器学习就绪数据集:输出一个结构化的数据集,适用于各种应用。
数据集访问
通过该管道清理的 USDA Branded Food 数据集可在 HuggingFace Datasets 上获取,链接为:https://huggingface.co/datasets/jacktol/usda_branded_food_data。
演示
USDA Food Assistant 托管在 HuggingFace Spaces 上,可访问链接为:https://huggingface.co/spaces/jacktol/usda-food-assistant。

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
World Flights
该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。
github 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
glaive-function-calling-openai
该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集,专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象,包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息,并提供了加载和评估数据集的示例代码。
huggingface 收录