five

User Reviews and Perfume Attributes Dataset|香水评价数据集|用户行为分析数据集

收藏
github2024-10-25 更新2024-10-26 收录
香水评价
用户行为分析
下载链接:
https://github.com/Kalashi-Saed-Collaborations/SentimentDrivenCommunityDetection
下载链接
链接失效反馈
资源简介:
该数据集包含来自7,387个唯一用户的36,434条评论,用户对香水属性的评分,如气味、持久性、扩散性和瓶子设计。还包括用户名、用户ID和评论类型等元数据。
创建时间:
2024-10-24
原始信息汇总

Sentiment Driven Community Detection in a Network of Perfume Preferences

概述

该仓库包含用于论文《Sentiment-Driven Community Detection in a Network of Perfume Preferences》的数据集。研究重点是通过应用社区检测技术,分析基于波斯零售平台Atrafshan上用户正面评论的香水偏好网络。研究利用情感分析将香水分组为集群,揭示了香水领域中共享的消费者偏好。

关键贡献

  • 新颖的社区检测:首次将社区检测方法应用于香水网络,增强了香水行业消费者偏好的洞察力。
  • 丰富的数据集:从波斯香水零售平台提取并提供了一个全面的数据集,包括用户评论和评分,托管在GitHub上供进一步分析。
  • 增强的情感分析:创新地结合了表情符号和用户评分,改进了情感分类,并捕捉了评论中的情感背景。
  • 精细的边权重:整合用户评分以调整香水共偏好网络中的边权重,确保消费者偏好的细致表示。
  • 提高的模块性:通过基于情感的网络构建,改进了模块性评分,从而基于共享用户偏好更清晰地分组相似香水。

关键词

社区检测、数据挖掘、香水网络、情感分析、用户偏好、共偏好网络、波斯零售平台。

数据集

该仓库包括多个用于研究的数据集,提供了香水评论、情感分析和表情符号映射的综合视图。

1. 用户评论和香水属性数据集

  • 评论:来自7,387个唯一用户的36,434条评论。
  • 评分:用户对香水属性(如气味、持久性、扩散性和瓶子设计)的评分。
  • 元数据:包括用户名、用户ID和评论类型(如独立评论或回复)。

字段

  • user_id:用户的唯一标识符。
  • user_name:留下评论的用户的名称。
  • comment_text:用户评论的文本,提供他们对香水的情感见解。
  • perfume_id:香水的唯一标识符。
  • perfume_name:香水的名称。
  • perfume_brand:香水的品牌。
  • perfume_url:香水在Atrafshan网站上的页面URL。
  • scent_specifications:香水的香调组、调香师和性质(如温暖、清新)。
  • production_specifications:品牌名称(波斯语)、原产国和香水发布年份。
  • users_vote:社区对香水各种属性(气味、持久性、扩散性和设计)的评分。
  • user_vote_on_perfume:用户对香水特定方面的评分。

示例JSON结构

json { "user_id": "93040", "user_name": "علی", "comment_text": "در برنامه خریدم هست ولی نمیدونم چرا نمیتونم باهاش کنار بیام حس میکنم بوی رژ لب میده", "perfume_id": "1030", "perfume_name": "Dior Homme Intense", "perfume_brand": "Dior", "perfume_url": "https://www.atrafshan.ir//perfume/1030-480/dior-homme-intense", "scent_specifications": { "fragrance_group": "چوبی گلی مُشکی", "perfumer": "فرانسوا دماشی", "nature": "گرم" }, "production_specifications": { "brand_name_farsi": "دیور", "origin_country": "فرانسه", "release_year": "2007" }, "users_vote": { "smell": "8.2", "durability": "7.8", "diffusion": "7.6", "design": "8.2" }, "user_vote_on_perfume": { "votes": { "رایحه": "8", "ماندگاری": "7", "پخش بو": "7", "طراحی شیشه": "8" }, "comment_id": "128773", "is_comment_answer": "NO" } }

2. 表情符号映射数据集

包含392个常见表情符号及其波斯语等效词的字典。

示例

  • "😍" → "چشم های عاشق" ("Loving Eyes").

该数据集通过在用户评论中结合表情符号使用,实现了更准确的情感分析。

3. 情感分类结果

提供三个CSV文件,包含情感分类结果,每个文件偏向于特定的香水属性:气味、持久性或扩散性。

方法论

首先,使用ParsBert模型对评论进行情感分类。情感分类是在用户评论上进行的,只有正面评论被用于构建香水-香水网络。

为了进一步提高情感分类的准确性,我们将用户对三个基本香水类别(气味、持久性和扩散性)的投票整合到情感分析过程中。这种整合为香水体验的每个方面提供了更精细的情感分类。

情感分类整合

为了增强情感标签的准确性,用户对三个基本香水属性(气味、持久性和扩散性)的投票被整合到分类过程中。每个用户对这些类别的评分(R)用于偏置情感分析,如下所示:

  • R ≥ 7:正面情感。
  • R ≤ 3:负面情感。
  • 4 < R < 7:模糊,无情感变化。

这种系统整合允许对香水体验的不同维度上的消费者偏好进行更细致的理解。

CSV文件

  1. 气味偏向的情感分类
  2. 持久性偏向的情感分类
  3. 扩散性偏向的情感分类

使用

该仓库中提供的数据集可用于进一步的研究和分析。它们可以用于研究用户偏好、进行社区检测或在香水行业中增强推荐系统。

使用条款

数据集仅用于学术和非商业目的。如果您在工作中使用数据,请确保正确引用。

引用

如果您使用数据集或从我们的论文中获得结果,请按如下方式引用:

bibtex @article{kalashi2024sentiment, title={Sentiment-Driven Community Detection in a Network of Perfume Preferences}, author={Kamand Kalashi and Sajjad Saed and Babak Teimourpour}, eprint={arXiv:YYYY.MM.DD}, archivePrefix={arXiv}, primaryClass={cs.LG}, year={2024}, note={Preprint available at: https://arxiv.org/abs/YYYY.MM.DD} }

作者

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对波斯零售平台Atrafshan上的用户评论和香水属性的全面提取。研究团队通过应用ParsBert模型对用户评论进行情感分类,仅保留正面评论以构建香水偏好网络。此外,用户对香水属性的评分,如香气、持久性和扩散性,被整合到情感分析过程中,以增强情感分类的准确性。这种结合用户投票和情感分析的方法,确保了数据集在捕捉消费者偏好方面的细致性和全面性。
特点
此数据集的显著特点在于其丰富的情感分析和用户投票数据,这使得它能够细致地反映消费者对香水的多维度偏好。数据集不仅包含36,434条用户评论,还详细记录了7,387名用户的独特评分和反馈。此外,数据集还提供了香水的详细属性,包括品牌、产地和发布年份等,这些信息为深入分析香水市场提供了坚实的基础。
使用方法
该数据集适用于多种研究场景,包括个性化推荐系统、市场细分和情感分析。通过分析用户评论和评分,可以构建基于用户偏好的香水推荐系统,提升用户体验。此外,数据集还可用于识别香水市场的细分群体,帮助营销人员制定更有针对性的策略。对于学术研究者而言,该数据集是进行情感驱动网络分析和社区检测的宝贵资源,有助于深入理解消费者行为和市场动态。
背景与挑战
背景概述
在香水偏好分析领域,用户评论和香水属性数据集(User Reviews and Perfume Attributes Dataset)的创建标志着情感驱动社区检测技术在香水网络中的首次应用。该数据集由Kamand Kalashi、Sajjad Saed和Babak Teimourpour等研究人员于2024年构建,旨在通过分析来自波斯零售平台Atrafshan的正面用户评论,揭示香水偏好网络中的社区结构。这一研究不仅丰富了香水行业的消费者偏好洞察,还为情感分析和社区检测技术在香水领域的应用提供了新的视角。
当前挑战
该数据集在构建过程中面临多项挑战。首先,从波斯语零售平台提取和整理大量用户评论和评分数据,确保数据的完整性和准确性是一项复杂任务。其次,结合用户投票和表情符号进行情感分类,以捕捉评论中的情感细微差别,需要创新的方法和精细的算法。此外,构建香水共偏好网络时,如何精确调整边权重以反映消费者偏好的细微差异,也是一项技术难题。这些挑战不仅推动了数据集的构建,也为后续研究提供了丰富的探索空间。
常用场景
经典使用场景
在香水偏好网络中,用户评论和香水属性数据集的经典应用场景主要体现在情感驱动的社区检测。通过分析用户对香水的评论和评分,研究者能够构建香水共偏好网络,并应用社区检测技术将香水分组,揭示出共享消费者偏好的香水集群。这种方法不仅提升了对香水市场消费者偏好的理解,还为个性化推荐系统提供了坚实的基础。
解决学术问题
该数据集解决了在香水行业中如何有效分析和理解消费者偏好的学术问题。通过整合用户评论和评分,研究者能够进行精细化的情感分析,识别出不同香水之间的共性偏好,从而提升社区检测的准确性。这不仅丰富了情感分析在特定领域的应用,还为市场细分和产品开发提供了科学依据。
衍生相关工作
基于该数据集,研究者们进一步开展了多项相关工作,包括情感驱动的网络分析、社区检测和共偏好网络研究。这些工作不仅深化了对消费者行为和偏好的理解,还为数据挖掘和情感分析领域提供了新的研究方向。此外,该数据集还促进了在特定文化背景下(如波斯语市场)的情感分析和市场研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

reereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereerer

阿里云天池 收录

Food-11

This is a dataset containing 16643 food images grouped in 11 major categories

kaggle 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录