AsciiMAster/off-categories-bge-m3

Name: AsciiMAster/off-categories-bge-m3
Creator: AsciiMAster
Published: 2026-05-01 22:24:12
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/AsciiMAster/off-categories-bge-m3

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于Open Food Facts（开放食品信息）分类体系的扁平化、嵌入版本数据集。每行数据代表一个食品类别，包含多语言（英语、德语、法语、波兰语）显示名称、完整的祖先路径以及由BAAI/bge-m3模型生成的1024维嵌入向量。数据集旨在简化下游项目对食品类别的检索过程，无需重新获取分类数据或运行嵌入模型。数据集包含14352个类别，每个类别提供ID、多语言名称、父类别ID列表、祖先路径、上下文哈希和嵌入向量。嵌入向量是通过将英文类别名称与祖先路径连接后，使用bge-m3模型生成的，适用于余弦相似度度量。数据集遵循Open Database License (ODbL) v1.0许可，要求在使用或分发时保持相同许可并注明来源。

A flat, embedded version of the Open Food Facts category taxonomy. Each row is one OFF category with multilingual display names, its full ancestor path, and a 1024-dimensional embedding produced by BAAI/bge-m3. The intent is to let downstream projects do retrieval over OFF categories without having to re-fetch categories.json, walk the parent graph, or run the embedding model. The dataset contains 14352 categories, each with an ID, multilingual names, parent category IDs, ancestor path, context hash, and embedding vector. The embedding vectors are generated by the bge-m3 model using the concatenation of the English category name and ancestor path, suitable for cosine similarity measurement. The dataset is distributed under the Open Database License (ODbL) v1.0, requiring the same license and attribution for any use or distribution.

提供机构：

AsciiMAster

搜集汇总

数据集介绍

构建方式

该数据集源自Open Food Facts（OFF）分类体系，通过将原始的分层食品类别结构扁平化处理，并为每个类别生成嵌入向量而构建。具体而言，每个类别样本包含其多语言显示名称、直接父类标识符、预计算的祖辈路径（ancestor_path），以及由BAAI/bge-m3模型生成的1024维嵌入向量。构建过程中，模型以英文类别名称与祖辈路径的拼接字符串作为输入，经编码后产出语义向量。最终数据集以Parquet格式存储，共计14352行，保留了上下文的哈希值以便于版本差异比对。

使用方法

使用者可通过PyArrow或Pandas直接加载Parquet文件，获取包含类别ID、多语言名称、父类列表及嵌入向量的数据框。对于语义检索场景，推荐将嵌入矩阵进行L2归一化后，与同样由bge-m3编码的查询向量计算余弦相似度。PostgreSQL用户可借助pgvector扩展，将向量列存储为vector(1024)类型，并创建HNSW索引以实现高效近邻搜索。需注意，该数据集基于ODbL许可证发布，任何衍生作品必须保持相同许可协议并注明原始数据来源。

背景与挑战

背景概述

在食品信息语义检索领域，品类体系的向量化表达是实现高效检索与推荐的关键基础。Open Food Facts作为一个开放的多语言食品数据库，其分类体系蕴含着丰富的语义关联，但原始的分类结构以层级树形式存在，难以直接应用于现代向量检索系统。为此，研究人员于近期开发了off-categories-bge-m3数据集，利用BAAI机构发布的bge-m3多语言嵌入模型，将Open Food Facts中14,352个食品类别的英文名称及其祖先路径拼接后，编码为1024维的密集向量。该数据集由开源项目BetterCategories背后团队创建，旨在为下游应用提供无需重新遍历层级图或运行嵌入模型的即用型检索能力，显著降低了在pgvector等向量数据库中构建食品类目搜索系统的门槛，对推动多语言食品本体在语义检索、推荐系统等领域的应用具有重要价值。

当前挑战

该数据集所解决的领域问题在于如何将非结构化的层级食品分类体系转化为适用于余弦相似度检索的向量空间，从而克服传统基于关键词匹配方法在跨语言语义理解、同义词处理等方面的局限。在构建过程中面临的核心挑战包括：处理多语言分类名称的语义一致性，例如在英语、德语、法语、波兰语等语言的显示名称间建立统一的嵌入表示；归纳并展平复杂的父子层级关系为结构化的祖先路径，确保每个类别嵌入能充分捕获其在整个分类树中的上下文语义；排除无嵌入生成的异常行以保证数据完整性；以及验证bge-m3模型在食品领域术语上的嵌入质量，使得14352个类别向量在1024维空间中能够忠实反映真实的语义近邻关系，从而支撑下游的自然语言食品类别搜索服务。

常用场景

经典使用场景

在食品信息检索与知识图谱构建的交叉领域，Open Food Facts类别嵌入数据集为多语言食物分类体系提供了预计算的语义表示。经典使用场景聚焦于基于自然语言查询的食品类别检索，研究人员可通过将用户输入的查询文本经BGE-M3模型编码后，与1.4万余条类别嵌入进行余弦相似度匹配，快速定位最相关的食物分类标签及其层级路径。该设计消除了实时遍历分类图结构或重复运行嵌入模型的计算开销，使检索响应速度达到毫秒级。尤为重要的是，数据集的扁平化祖先路径融合策略，使得语义搜索能够感知类别间的层级关系，例如查询“有机苹果汁”不仅能匹配到en:apple-juices，还能通过嵌入上下文理解其归属于饮料类而非水果类。

解决学术问题

该数据集直面多语言食品分类体系中语义检索效率低与层级关系建模难的双重困境。传统方法依赖字符串匹配或规则推导，难以处理用户非标准化表述（如“无糖气泡水”对应en:carbonated-drinks），且跨语言映射（英/德/法/波）需维护复杂的同义词表。通过将分类名称与祖先路径联合编码为1024维稠密向量，数据集实现了三个突破：其一，在单一向量空间中统一了多语言语义表示，为跨语言食品分类对齐提供了基准；其二，预计算嵌入使下游任务无需重复模型推理，大幅降低计算资源消耗；其三，公开的向量索引支持HNSW快速近似检索，为大规模实时分类系统给出了可复现的参考基线。

实际应用

在实际产业场景中，该数据集已支撑起BetterCategories这一食品类别智能搜索服务的运行。消费者在食品购物应用或营养追踪工具中输入模糊描述（如“低脂酸奶”或“bio muesli”），系统可毫秒级返回标准化分类标签，并自动补全其父级类别路径。电商平台可利用该数据集建立商品自动归类管道，将数千个非结构化商品标题映射至OFF分类体系；食品数据库维护者则能以嵌入相似度为检测信号，发现已被合并或废弃的类别ID和歧义标签。Postgres数据库提供的pgvector集成方案，更赋予了现有食品科技栈直接植入语义搜索能力，无需额外部署专用向量服务。

数据集最近研究