five

Dizex/FoodBase

收藏
Hugging Face2022-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Dizex/FoodBase
下载链接
链接失效反馈
官方服务:
资源简介:
FoodBase数据集是一个用于食品领域的语料库,首次在相关论文中引入。该数据集包含多个特征,如nltk_tokens、iob_tags、input_ids、token_type_ids、attention_mask和labels。数据集分为训练集和验证集,分别包含600和200个示例。

The FoodBase dataset is a food-domain corpus first introduced in relevant research papers. It includes multiple features such as nltk_tokens, iob_tags, input_ids, token_type_ids, attention_mask, and labels. The dataset is split into training and validation sets, which contain 600 and 200 examples respectively.
提供机构:
Dizex
原始信息汇总

数据集概述

特征信息

  • nltk_tokens: 字符串序列
  • iob_tags: 字符串序列
  • input_ids: 32位整数序列
  • token_type_ids: 8位整数序列
  • attention_mask: 8位整数序列
  • labels: 64位整数序列

数据分割

  • train:
    • 字节数: 2040036
    • 样本数: 600
  • val:
    • 字节数: 662190
    • 样本数: 200

数据集大小

  • 下载大小: 353747 字节
  • 数据集大小: 2702226 字节
搜集汇总
数据集介绍
main_image_url
构建方式
在食品信息学领域,FoodBase数据集的构建源于对食品实体识别与分类的迫切需求。该数据集通过系统性地收集和标注食品相关文本,采用序列标注方法,将原始文本转化为结构化的NLP任务数据。具体而言,构建过程涉及从学术文献或公开资源中提取食品描述文本,利用自然语言处理工具进行分词和标记,并人工或半自动地标注IOB标签以标识食品实体边界。数据经过预处理后,被划分为训练集和验证集,确保模型训练与评估的可靠性,最终以标准化的特征格式封装,便于机器学习应用。
特点
FoodBase数据集在食品文本分析中展现出独特优势,其核心特征在于精细的序列标注结构。数据集包含nltk_tokens、iob_tags、input_ids等多维特征,支持从原始文本到深度学习输入的完整转换。IOB标签系统专门针对食品实体设计,能够精确捕捉食品名称、成分或类别等关键信息,增强了实体识别的准确性。此外,数据集规模适中,训练集和验证集分别包含600和200个样本,平衡了计算效率与模型泛化能力,适用于资源受限环境下的快速实验与验证。
使用方法
使用FoodBase数据集时,研究者可将其直接应用于食品领域的命名实体识别任务。用户需加载数据集分割,利用预处理的input_ids、attention_mask等特征作为模型输入,结合labels进行监督学习。数据集兼容主流NLP框架,如Hugging Face Transformers,允许快速集成到BERT或类似架构中,进行微调或评估。通过调用标准数据加载器,可实现批量处理和迭代训练,同时验证集可用于监控模型性能,促进食品信息提取技术的迭代优化。
背景与挑战
背景概述
FoodBase数据集由Dizex团队于2019年构建,作为食品科学领域的一项关键语料库资源,旨在支持食品实体识别与分类任务。该数据集基于学术论文《FoodBase: A corpus for the study of food information in biomedical literature》发布,由牛津大学出版社收录,反映了食品信息在生物医学文献中的结构化需求。其核心研究问题聚焦于从非结构化文本中自动提取食品相关实体,如食材、营养成分与加工方式,以促进营养学、公共卫生及计算语言学等交叉领域的知识发现。该数据集的建立为食品信息抽取模型提供了标准化评估基准,显著推动了食品计算领域的发展,并成为后续研究的重要基础。
当前挑战
FoodBase数据集所针对的食品实体识别任务面临多重挑战:食品名称常具有多样性与歧义性,例如同一食材在不同文化或语境下的表述差异;同时,食品实体常与生物医学术语交织,增加了边界划分的难度。在构建过程中,研究人员需应对标注一致性的问题,食品类别的细粒度划分要求标注者具备专业领域知识,而人工标注的成本与效率平衡亦成为关键制约。此外,数据集的规模相对有限,覆盖的文献类型与语言多样性不足,可能影响模型在真实场景中的泛化能力。
常用场景
经典使用场景
在食品科学和营养信息学领域,FoodBase数据集为命名实体识别任务提供了关键支持。该数据集通过标注食品相关的实体,如食材、营养成分和烹饪方法,使研究者能够训练模型从非结构化文本中自动提取结构化信息。这一过程通常涉及序列标注技术,利用深度学习模型分析文本序列中的实体边界和类别,从而提升信息检索的精度和效率。
实际应用
在实际应用中,FoodBase数据集被广泛用于开发智能饮食管理工具和食品推荐系统。例如,在移动健康应用中,基于该数据集的模型可以分析用户输入的饮食日志,自动识别食物成分并计算营养摄入,辅助个人健康管理。此外,食品工业利用其进行市场趋势分析,从社交媒体或评论中提取消费者偏好,优化产品开发和营销策略。
衍生相关工作
基于FoodBase数据集,衍生了一系列经典研究工作,包括改进的命名实体识别模型和跨语言食品信息提取系统。这些工作扩展了数据集的适用范围,例如通过迁移学习技术将其应用于其他语种的食品文本分析。相关研究还促进了食品本体论的发展,为构建更全面的食品知识库提供了方法论支持,推动了人工智能在食品科学中的深入应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作