five

openfoodfacts/product-database

收藏
Hugging Face2026-05-09 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/openfoodfacts/product-database
下载链接
链接失效反馈
官方服务:
资源简介:
Open Food Facts是一个包含食品成分、过敏原、营养成分等信息的数据库,由志愿者共同创建,数据公开,可以被任何人重用。数据集是从JSONL格式转换为Parquet格式的简化版本,移除了部分标签,保留了包含最多信息的标签。数据重用需遵循开放数据库许可,产品图片遵循知识共享署名-相同方式共享许可。

Open Food Facts is a database of food products with ingredients, allergens, nutrition facts, and all the information we can find on product labels. The database is maintained by a non-profit association of volunteers, with over 25,000 contributors adding more than 1.7 million products from 150 countries using Android or iPhone apps or their cameras to scan barcodes and upload pictures of products and their labels. The data is of public interest and is made available as open data for anyone to reuse for any purpose. This dataset is a simplified version of the JSONL dump provided by the Open Food Facts organization daily, converted into the Parquet format for ease of use.
提供机构:
openfoodfacts
搜集汇总
数据集介绍
main_image_url
构建方式
在食品科学领域,数据集的构建往往依赖于大规模、多源的信息整合。Open Food Facts数据库的构建过程体现了这一特点,它通过全球志愿者的协作,利用移动应用扫描产品条形码并上传标签图片,逐步汇集了来自150多个国家的超过170万种食品产品信息。原始数据以JSONL格式每日更新,随后经过精心处理,移除了调试标签、层次结构标签及语言界面标签等冗余信息,同时保留了包含核心内容的标签,并通过Pyarrow工具转换为Parquet格式,以优化存储和访问效率,确保数据结构的简洁与实用性。
特点
该数据集在食品信息学中具有显著的多维特征。它覆盖了包括英语、法语、德语、中文等在内的40多种语言,体现了跨文化食品数据的广泛代表性。数据规模介于100万到1000万条之间,内容涵盖成分、过敏原、营养事实等标签细节,且以开放数据许可发布,支持公众自由重用。其结构分为食品和美容产品两个子集,便于针对性分析,同时保留了原始数据中的关键标签和语言信息,为多语言处理和全球比较研究提供了丰富基础。
使用方法
在食品健康与安全研究中,该数据集的使用方法注重便捷与灵活性。用户可以直接从HuggingFace平台下载Parquet格式的文件,利用Python中的Pandas或Pyarrow库进行高效加载和处理。数据集按食品和美容产品分割,允许研究者根据需求选择特定子集进行分析,例如营养趋势探索或成分安全性评估。由于数据以开放许可提供,用户可以自由应用于学术研究、商业分析或公共健康项目,但建议在使用前阅读相关许可条款,并考虑向Open Food Facts社区反馈重用情况,以促进数据生态的持续发展。
背景与挑战
背景概述
Open Food Facts产品数据库作为一个开放的多语言食品信息库,由非营利组织Open Food Facts协会于2012年发起创建,汇聚了全球超过25,000名志愿者的集体智慧。该数据库致力于系统收录全球范围内食品产品的成分、过敏原、营养标签等关键信息,旨在通过开放数据模式促进食品透明度与公共健康研究。其核心研究问题聚焦于如何构建一个可自由访问、结构化的全球食品知识图谱,以支持营养分析、供应链追溯及消费者权益保护等跨领域应用,对食品科学、公共卫生及数据驱动政策制定产生了深远影响。
当前挑战
该数据集面临的领域挑战在于如何实现高精度、跨语言的食品信息标准化提取与整合,以应对全球食品标签格式多样、术语不一致及法规差异带来的复杂性。构建过程中的挑战包括:依赖众包模式导致的数据质量不均,需通过算法清洗与验证确保可靠性;处理多语言文本时需克服语义歧义与翻译偏差;以及将原始非结构化JSONL数据高效转换为Parquet等分析友好格式时,需平衡信息完整性与处理效率。
常用场景
经典使用场景
在食品科学与营养学领域,Open Food Facts数据库为研究人员提供了丰富的产品标签信息,包括成分、过敏原和营养成分等。该数据集最经典的使用场景是支持大规模食品成分分析,例如通过扫描条形码上传的产品数据,研究者能够系统性地评估不同地区食品的营养构成,识别潜在的健康风险,并为公共健康政策提供数据支持。这种应用不仅促进了跨文化食品比较研究,还推动了消费者对食品标签透明度的关注。
解决学术问题
该数据集有效解决了食品科学中数据获取困难的问题,为学术研究提供了标准化、多语言的产品信息。研究者利用这些数据可以深入探讨食品添加剂的使用模式、过敏原的分布规律,以及营养成分与健康指标之间的关联。通过开放数据许可,它打破了商业数据库的壁垒,使得全球学者能够基于同一数据集进行可重复性研究,从而提升了食品营养学领域的科学严谨性和跨学科合作潜力。
衍生相关工作
基于Open Food Facts数据库,衍生了许多经典研究工作,例如开发自动化食品分类算法和营养预测模型。研究人员利用其多语言标签数据训练自然语言处理系统,以识别食品成分中的隐含信息;同时,该数据集也支撑了多项关于食品可持续性评估的研究,如碳足迹计算和包装材料分析。这些工作不仅推动了人工智能在食品领域的应用,还为全球食品系统的透明化和可持续转型提供了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作