five

mayankc-amazon_beauty_subset

收藏
Hugging Face2025-09-07 更新2025-09-08 收录
下载链接:
https://huggingface.co/datasets/mickey1976/mayankc-amazon_beauty_subset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个为MMR-Agentic-CoVE推荐系统优化的亚马逊美容产品数据集子集,包含多模态项目数据(文本、图像、元数据)、用户交互、FAISS索引、模型输出和嵌入向量,所有数据均经过组织以便API和UI空间的高效检索。
创建时间:
2025-09-07
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Amazon Beauty Subset for MMR-Agentic-CoVE
  • 来源: Amazon Reviews dataset的"Beauty"类别
  • 用途: 支持MMR-Agentic-CoVE推荐系统
  • 许可证: cc-by-nc-4.0

数据类型

  • 多模态数据(文本、图像、元数据)
  • 用户交互数据
  • FAISS索引文件
  • 模型输出和嵌入向量
  • LoRA微调权重

文件结构

json/

  • defaults.json:融合模式的权重配置
  • item_ids.json、user_seq.json、cove_item_ids.json:ID映射和测试集

npy/

  • text.npy、image.npy、meta.npy:项目模态嵌入
  • cove_logits.npy、full_cove_embeddings.npy:CoVE模型输出

parquet/

  • reviews.parquet、items_catalog.parquet:基础产品元数据
  • user_text_emb.parquet:用户文本嵌入向量

model/

  • model.safetensors、adapter_model.safetensors:LoRA微调权重

faiss/

  • items_beauty_concat.faiss、items_beauty_weighted.faiss:用于快速项目检索的FAISS索引

相关资源

  • API后端: https://huggingface.co/spaces/mickey1976/cove-api
  • UI前端: https://huggingface.co/spaces/mickey1976/cove-ui

引用

  • Ni, J., et al. (2019). Amazon Review Dataset. UCSD. https://nijianmo.github.io/amazon/index.html

维护者

  • Mayank Choudhary(@mickey1976)
搜集汇总
数据集介绍
main_image_url
构建方式
在推荐系统研究领域,Amazon Beauty子集源于亚马逊公开评论数据集的美容类别,经过系统化预处理与多模态重构。该数据集整合了用户交互序列、商品元数据及多模态特征,通过标准化流程提取文本、图像与结构化信息,并借助FAISS索引与LoRA微调技术优化存储与检索效率,为推荐算法研究提供高质量基准数据。
使用方法
研究者可通过huggingface_hub接口直接加载NPY格式的嵌入向量或Parquet结构化表格,集成至自定义推荐管道。配套的CoVE-API与CoVE-UI空间提供实时测试环境,用户可调用FAISS索引进行多模态检索实验,或加载LoRA权重微调推荐模型,具体操作详见数据集文档中的Python代码示例。
背景与挑战
背景概述
亚马逊美容产品子集数据集源于2019年加州大学圣地亚哥分校Jianmo Ni等人发布的亚马逊评论数据集,专注于美容产品领域的多模态推荐系统研究。该数据集由研究人员Mayank Choudhary团队构建,旨在支持MMR-Agentic-CoVE智能推荐框架的开发与应用。其核心研究问题在于如何整合文本、图像和元数据等多模态信息,以提升个性化推荐的准确性与用户体验,对电子商务和推荐系统领域具有重要推动作用。
当前挑战
该数据集致力于解决多模态推荐系统中的复杂挑战,包括跨模态信息融合、用户偏好动态建模以及实时检索效率优化。构建过程中面临原始数据异构性处理、多模态特征对齐、大规模嵌入向量存储与索引构建等关键技术难题,需通过LoRA微调、FAISS索引等技术实现高效数据处理与检索。
常用场景
经典使用场景
在推荐系统研究领域,该数据集作为多模态推荐系统MMR-Agentic-CoVE的核心数据支撑,通过整合商品文本描述、视觉特征和元数据,为研究者提供了完整的用户-商品交互序列。其经典应用场景包括训练端到端的神经推荐模型,验证多模态特征融合算法的有效性,以及评估个性化推荐在美容产品领域的性能表现。
解决学术问题
该数据集有效解决了多模态推荐系统中特征表示不一致、跨模态语义对齐困难等核心学术问题。通过提供经过预处理的文本嵌入、图像特征和元数据向量,显著降低了多模态融合研究的实验门槛。其提供的FAISS索引和LoRA权重更进一步推动了高效检索与轻量化模型部署方面的研究进展,对推荐系统领域的算法创新具有重要促进作用。
实际应用
在实际应用层面,该数据集支撑的美容产品推荐系统能够为电商平台提供精准的商品推荐服务。通过分析用户的历史行为和偏好,系统可以生成个性化的产品推荐列表,提升用户体验和购买转化率。此外,其多模态特性使得推荐结果能够同时考虑产品描述、外观设计和功能特性,为消费者提供更加全面和贴心的购物决策支持。
数据集最近研究
最新研究方向
在个性化推荐系统领域,该数据集正推动多模态融合与智能体协同架构的前沿探索。研究者借助其整合的文本、图像及元数据嵌入向量,结合FAISS高效索引与LoRA微调技术,构建具备动态感知能力的推荐智能体。此类系统能够实时解析用户多维度偏好,通过跨模态语义对齐实现精准的商品匹配,显著提升美妆电商场景的推荐效果与用户体验。相关技术已应用于CoVE等端到端推荐框架,为多模态推荐系统的工程化落地提供了重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作