User Reviews and Perfume Attributes Dataset|香水评价数据集|用户行为分析数据集
收藏Sentiment Driven Community Detection in a Network of Perfume Preferences
概述
该仓库包含用于论文《Sentiment-Driven Community Detection in a Network of Perfume Preferences》的数据集。研究重点是通过应用社区检测技术,分析基于波斯零售平台Atrafshan上用户正面评论的香水偏好网络。研究利用情感分析将香水分组为集群,揭示了香水领域中共享的消费者偏好。
关键贡献
- 新颖的社区检测:首次将社区检测方法应用于香水网络,增强了香水行业消费者偏好的洞察力。
- 丰富的数据集:从波斯香水零售平台提取并提供了一个全面的数据集,包括用户评论和评分,托管在GitHub上供进一步分析。
- 增强的情感分析:创新地结合了表情符号和用户评分,改进了情感分类,并捕捉了评论中的情感背景。
- 精细的边权重:整合用户评分以调整香水共偏好网络中的边权重,确保消费者偏好的细致表示。
- 提高的模块性:通过基于情感的网络构建,改进了模块性评分,从而基于共享用户偏好更清晰地分组相似香水。
关键词
社区检测、数据挖掘、香水网络、情感分析、用户偏好、共偏好网络、波斯零售平台。
数据集
该仓库包括多个用于研究的数据集,提供了香水评论、情感分析和表情符号映射的综合视图。
1. 用户评论和香水属性数据集
- 评论:来自7,387个唯一用户的36,434条评论。
- 评分:用户对香水属性(如气味、持久性、扩散性和瓶子设计)的评分。
- 元数据:包括用户名、用户ID和评论类型(如独立评论或回复)。
字段
- user_id:用户的唯一标识符。
- user_name:留下评论的用户的名称。
- comment_text:用户评论的文本,提供他们对香水的情感见解。
- perfume_id:香水的唯一标识符。
- perfume_name:香水的名称。
- perfume_brand:香水的品牌。
- perfume_url:香水在Atrafshan网站上的页面URL。
- scent_specifications:香水的香调组、调香师和性质(如温暖、清新)。
- production_specifications:品牌名称(波斯语)、原产国和香水发布年份。
- users_vote:社区对香水各种属性(气味、持久性、扩散性和设计)的评分。
- user_vote_on_perfume:用户对香水特定方面的评分。
示例JSON结构
json { "user_id": "93040", "user_name": "علی", "comment_text": "در برنامه خریدم هست ولی نمیدونم چرا نمیتونم باهاش کنار بیام حس میکنم بوی رژ لب میده", "perfume_id": "1030", "perfume_name": "Dior Homme Intense", "perfume_brand": "Dior", "perfume_url": "https://www.atrafshan.ir//perfume/1030-480/dior-homme-intense", "scent_specifications": { "fragrance_group": "چوبی گلی مُشکی", "perfumer": "فرانسوا دماشی", "nature": "گرم" }, "production_specifications": { "brand_name_farsi": "دیور", "origin_country": "فرانسه", "release_year": "2007" }, "users_vote": { "smell": "8.2", "durability": "7.8", "diffusion": "7.6", "design": "8.2" }, "user_vote_on_perfume": { "votes": { "رایحه": "8", "ماندگاری": "7", "پخش بو": "7", "طراحی شیشه": "8" }, "comment_id": "128773", "is_comment_answer": "NO" } }
2. 表情符号映射数据集
包含392个常见表情符号及其波斯语等效词的字典。
示例
- "😍" → "چشم های عاشق" ("Loving Eyes").
该数据集通过在用户评论中结合表情符号使用,实现了更准确的情感分析。
3. 情感分类结果
提供三个CSV文件,包含情感分类结果,每个文件偏向于特定的香水属性:气味、持久性或扩散性。
方法论
首先,使用ParsBert模型对评论进行情感分类。情感分类是在用户评论上进行的,只有正面评论被用于构建香水-香水网络。
为了进一步提高情感分类的准确性,我们将用户对三个基本香水类别(气味、持久性和扩散性)的投票整合到情感分析过程中。这种整合为香水体验的每个方面提供了更精细的情感分类。
情感分类整合
为了增强情感标签的准确性,用户对三个基本香水属性(气味、持久性和扩散性)的投票被整合到分类过程中。每个用户对这些类别的评分(R)用于偏置情感分析,如下所示:
- R ≥ 7:正面情感。
- R ≤ 3:负面情感。
- 4 < R < 7:模糊,无情感变化。
这种系统整合允许对香水体验的不同维度上的消费者偏好进行更细致的理解。
CSV文件
- 气味偏向的情感分类
- 持久性偏向的情感分类
- 扩散性偏向的情感分类
使用
该仓库中提供的数据集可用于进一步的研究和分析。它们可以用于研究用户偏好、进行社区检测或在香水行业中增强推荐系统。
使用条款
数据集仅用于学术和非商业目的。如果您在工作中使用数据,请确保正确引用。
引用
如果您使用数据集或从我们的论文中获得结果,请按如下方式引用:
bibtex @article{kalashi2024sentiment, title={Sentiment-Driven Community Detection in a Network of Perfume Preferences}, author={Kamand Kalashi and Sajjad Saed and Babak Teimourpour}, eprint={arXiv:YYYY.MM.DD}, archivePrefix={arXiv}, primaryClass={cs.LG}, year={2024}, note={Preprint available at: https://arxiv.org/abs/YYYY.MM.DD} }
作者
- Kamand Kalashi - GoogleScholar, GitHub, LinkedIn, ResearchGate
- Sajjad Saed - GoogleScholar, LinkedIn, ResearchGate
- Babak Teimourpour - GoogleScholar, LinkedIn, ResearchGate

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
reereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereerer
阿里云天池 收录
Food-11
This is a dataset containing 16643 food images grouped in 11 major categories
kaggle 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录