Acidmanic/DK-FA-Cosmetics
收藏Hugging Face2023-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Acidmanic/DK-FA-Cosmetics
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用户对在线商店化妆品产品的评论,每条评论包含评论正文、标题、星级评分(0-5)、其他用户对评论的反应(喜欢和不喜欢数量)以及用户可能指定的优点和缺点。数据集主要用于训练或生成不同的数据模型,以进行意见挖掘和情感分析等NLP任务。数据集是通过爬虫从在线商店的产品页面中抓取的,并以json、jsonl和csv文件格式存储。数据集中的词汇主要围绕化妆品主题,因此可能不适合需要通用词汇和短语集合的用例。
该数据集包含用户对在线商店化妆品产品的评论,每条评论包含评论正文、标题、星级评分(0-5)、其他用户对评论的反应(喜欢和不喜欢数量)以及用户可能指定的优点和缺点。数据集主要用于训练或生成不同的数据模型,以进行意见挖掘和情感分析等NLP任务。数据集是通过爬虫从在线商店的产品页面中抓取的,并以json、jsonl和csv文件格式存储。数据集中的词汇主要围绕化妆品主题,因此可能不适合需要通用词汇和短语集合的用例。
提供机构:
Acidmanic
原始信息汇总
数据集卡片
数据集详情
数据集描述
- 由:Mani Moayedi 策划
- 语言:波斯语(Farsi)
- 许可证:MIT
用途
该数据集包含用户对在线商店网站产品的评论。每条评论包含一些附加数据,如星级评分值(0-5)。该数据集可用于训练或生成不同的NLP任务模型,如意见挖掘和情感分析。
超出范围的用途
该数据集是从波斯语在线商店的化妆品产品页面爬取的,词汇主要围绕化妆品主题,因此可能不适用于需要通用词汇和短语的用例。
数据集结构
每条评论以结构化格式表示,包含评论正文、评论标题、星级评分值(0-5)、其他用户对评论的点赞和点踩数量,以及用户可能指定的优缺点列表。标题字段和优缺点字段在许多评论中可以为空或为空值。
数据集创建
该数据集是通过爬虫从在线商店网站创建的。评论从产品页面抓取并存储为json、jsonl和csv文件。
个人和敏感信息
数据集包含发布评论的用户的用户名。数据集中的所有信息,包括这些用户名,都无需登录或认证即可在产品网页上查看。
偏差、风险和限制
从NLP的角度来看,该数据集可能主要包含关于化妆品产品和卖家及转售商服务质量的信息。因此,将此数据集视为语言的一般来源可能会引入一些问题,具体取决于用例。
词汇表
| 集合 | 评论数量 | 产品数量 | 平均每产品评论数 |
|---|---|---|---|
| dk-fa-cosmetics(完整数据集) | 421078 | 8325 | 51 |
| dkfacs-eyeliner(子集) | 30824 | 284 | 109 |
| dkfacs-stand(子集) | 83197 | 1738 | 48 |
| dkfacs-mascara(子集) | 47961 | 338 | 142 |
| dkfacs-sun-screen(子集) | 118699 | 772 | 154 |
| dkfacs-eye-shadow(子集) | 14532 | 634 | 23 |
| dkfacs-nails(子集) | 75209 | 3260 | 23 |
| dkfacs-lipsticks(子集) | 50656 | 1299 | 39 |



