five

ViEcomRec

收藏
github2024-04-02 更新2024-05-31 收录
下载链接:
https://github.com/linh222/face_cleanser_recommendation_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集专为越南电子商务推荐系统设计,专注于面部清洁产品。包含369,099次用户-商品交互,提供了个性化购物体验的宝贵见解。数据集包含2244个商品和369,099条来自304,708名用户的评论。

This dataset is specifically designed for Vietnamese e-commerce recommendation systems, focusing on facial cleansing products. It contains 369,099 user-item interactions, offering valuable insights for personalized shopping experiences. The dataset includes 2,244 products and 369,099 reviews sourced from 304,708 users.
创建时间:
2023-06-23
原始信息汇总

ViEcomRec数据集概述

数据集介绍

  • 名称: ViEcomRec
  • 目的: 专门为越南电子商务推荐系统设计,专注于面部清洁产品。
  • 规模: 包含369,099次用户-商品交互。
  • 发布: 发布于CSoNet 2023会议,可在Doras DCU上获取。

数据集内容

  • 商品数量: 2244个
  • 用户数量: 304,708个
  • 评论数量: 369,099条
  • 属性提取: 使用InstructGPT从产品描述中提取有用属性。
  • 数据链接: Google Drive链接

推荐系统方法

  • 内容基于过滤: 使用TF-IDF, BLIP, PhoBERT, OpenAI Ada24模型从处理后的商品描述中提取嵌入。代码位于src/Content_based_filtering.ipynb
  • 内容基于过滤(含流行度评分): 结合商品流行度评分优化内容过滤。流行度评分基于商品销售次数的归一化值。相关性评分计算公式为:Relevance_score = 𝛼 * Cosine_Score + 𝛽 * Popularity_Score。代码位于src/Attribute_embedding_based_filtering.ipynb
  • 属性基于过滤(文本): 使用Elasticsearch和BM25算法进行文本属性搜索。数据和代码分别位于dataset/attribute_text_filtering.csvsrc/Attribute_text_based_filtering.ipynb
  • 属性基于过滤(嵌入): 使用OpenAI Ada2进行文本属性嵌入,并通过计算余弦相似度生成推荐。数据和代码分别位于dataset/attribute_embedding_filtering.jsonsrc/Attribute_embedding_based_filtering.ipynb

引用信息

  • 论文: ViEcomRec: A Dataset for Recommendation in Vietnamese E-Commerce
  • 作者: Tran, Quang-Linh; Nguyen, Binh T.; Jones, Gareth J. F.; Gurrin, Cathal
  • 出版: 2024年,Springer Nature Singapore
  • ISBN: 978-981-97-0669-3
搜集汇总
数据集介绍
main_image_url
构建方式
ViEcomRec数据集的构建过程聚焦于越南电子商务领域的洗面奶产品推荐系统。该数据集通过收集304,708名用户的369,099条用户-物品交互记录,涵盖了2,244个商品。为了从商品描述中提取有用属性,研究团队采用了InstructGPT进行属性提取,确保了数据的丰富性和实用性。数据集的构建不仅依赖于用户行为数据,还结合了商品属性信息,为推荐系统的研究提供了多维度的数据支持。
特点
ViEcomRec数据集的特点在于其专注于越南电子商务市场,特别是洗面奶产品领域。数据集包含了大量的用户评论和商品属性信息,为个性化推荐系统提供了坚实的基础。此外,数据集还提供了基于内容和基于属性的过滤方法,支持多种推荐算法的实验和比较。通过整合商品流行度评分,数据集进一步增强了推荐结果的准确性和实用性。
使用方法
使用ViEcomRec数据集时,研究人员可以通过安装Elasticsearch并运行提供的Python脚本来进行数据处理和推荐算法的实验。数据集支持基于内容的过滤方法,利用TF-IDF、BLIP、PhoBERT和OpenAI Ada24等预训练模型提取商品描述嵌入。此外,数据集还提供了基于属性的过滤方法,包括文本和嵌入两种方式,分别通过BM25算法和余弦相似度计算生成推荐结果。研究人员可以根据需求选择不同的过滤方法,并结合商品流行度评分优化推荐效果。
背景与挑战
背景概述
ViEcomRec数据集由Quang-Linh Tran等研究人员于2023年发布,专为越南电子商务领域的推荐系统设计,特别聚焦于面部清洁产品。该数据集收录了369,099条用户-物品交互记录,涵盖了304,708名用户和2,244种商品,旨在通过个性化推荐提升购物体验。数据集在CSoNet 2023会议上首次亮相,并通过Doras DCU平台公开。其核心研究问题在于如何利用内容过滤和属性过滤技术,从越南语商品描述中提取有效特征,从而优化推荐算法的性能。ViEcomRec的发布为越南电子商务推荐系统的研究提供了重要数据支持,推动了该领域的技术创新与应用实践。
当前挑战
ViEcomRec数据集在构建与应用过程中面临多重挑战。首先,越南语作为一种低资源语言,其自然语言处理技术相对滞后,如何从商品描述中准确提取属性信息成为一大难题。研究人员采用InstructGPT进行属性提取,但仍需克服语义理解与噪声过滤的困难。其次,推荐系统的性能优化依赖于高质量的用户-物品交互数据,而数据稀疏性与冷启动问题在越南电子商务场景中尤为突出。此外,如何在内容过滤与属性过滤中平衡商品流行度与个性化需求,也是算法设计中的关键挑战。这些问题的解决不仅需要先进的技术手段,还需结合越南市场的独特文化背景与用户行为特征。
常用场景
经典使用场景
ViEcomRec数据集在越南电子商务领域的推荐系统中展现了其独特的价值,尤其是在面部清洁产品的个性化推荐方面。通过分析369,099条用户-商品交互数据,研究者能够深入理解用户行为模式,进而优化推荐算法。该数据集为内容过滤和基于属性的过滤方法提供了基准实验,帮助开发者在实际应用中提升推荐系统的准确性和用户满意度。
解决学术问题
ViEcomRec数据集解决了推荐系统领域中的多个关键学术问题,特别是在处理非英语语种电子商务数据时的挑战。通过提供越南语的面部清洁产品数据,该数据集填补了多语言推荐系统研究的空白。此外,数据集中的属性提取和嵌入技术为研究者在处理复杂商品描述时提供了新的思路,推动了基于内容的推荐算法的发展。
衍生相关工作
ViEcomRec数据集的发布催生了一系列相关研究,特别是在多语言推荐系统和基于属性的过滤算法方面。研究者们利用该数据集开发了多种新的推荐模型,如结合流行度评分的过滤方法和基于嵌入的属性过滤技术。这些工作不仅丰富了推荐系统的理论框架,还为实际应用中的算法优化提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作