Cosmetics_INCI_ABSA
收藏Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/kruuusher13/Cosmetics_INCI_ABSA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含与产品评论相关的信息,可能涉及化妆品或护肤品领域。数据集包含以下字段:产品ID(product_id)、作者ID(author_id)、评分(rating)、评论文本(review_text)、肤质类型(skin_type)、产品名称(product_name)、品牌名称(brand_name)、成分数量(n_ingredients)、安全标识(safe)、限制标识(restricted)、禁用标识(banned)、是否含有受限成分(has_restricted)、主要安全等级(dominant_safety)和主要方面(primary_aspect)。数据集分为训练集(train),包含1,070,962个样本,总大小为523,897,791字节。下载大小为209,168,745字节。
创建时间:
2026-03-30
原始信息汇总
数据集概述
基本信息
- 数据集名称: Cosmetics_INCI_ABSA
- 托管平台: Hugging Face Datasets
- 数据集地址: https://huggingface.co/datasets/kruuusher13/Cosmetics_INCI_ABSA
数据规模与结构
- 数据总量: 1,070,962 条样本
- 数据格式: 单训练集(train)
- 数据集大小: 523,897,791 字节
- 下载大小: 209,168,745 字节
数据特征(字段说明)
- product_id: 产品ID(字符串类型)
- author_id: 作者ID(字符串类型)
- rating: 评分(整数类型)
- review_text: 评论文本(字符串类型)
- skin_type: 肤质类型(字符串类型)
- product_name: 产品名称(字符串类型)
- brand_name: 品牌名称(字符串类型)
- n_ingredients: 成分数量(整数类型)
- safe: 安全成分数量(整数类型)
- restricted: 受限成分数量(整数类型)
- banned: 禁用成分数量(整数类型)
- has_restricted: 是否含有受限成分(布尔类型)
- dominant_safety: 主要安全性分类(字符串类型)
- primary_aspect: 主要方面(字符串类型)
数据配置
- 配置名称: default
- 数据文件路径: data/train-*
搜集汇总
数据集介绍

构建方式
在化妆品成分分析领域,Cosmetics_INCI_ABSA数据集通过整合用户评论与产品成分信息构建而成。数据来源于公开的化妆品评论平台,每条记录包含产品标识、用户评分、评论文本及皮肤类型等属性,并关联了产品的品牌、名称及成分数量。安全属性如安全、受限或禁用成分的标注,基于国际化妆品成分命名(INCI)标准进行自动化分类与验证,确保了数据在成分安全性分析方面的专业性与可靠性。
特点
该数据集的核心特点在于其多维度融合了用户主观反馈与客观成分数据。它不仅涵盖了丰富的评论文本和用户皮肤类型信息,还集成了成分安全等级标注,如安全、受限或禁用状态的量化指标。这种结构支持细粒度的方面级情感分析,能够揭示特定成分对用户体验的影响,为化妆品安全性与功效研究提供了高价值的跨领域数据基础。
使用方法
在应用层面,该数据集适用于自然语言处理任务,特别是方面级情感分析(ABSA),可用于训练模型识别评论文本中针对特定化妆品成分的情感倾向。研究人员可结合皮肤类型、评分等特征,探索成分安全性与用户满意度之间的关联。数据以标准分割形式提供,支持直接加载进行机器学习建模,促进化妆品行业的个性化推荐与安全评估研究。
背景与挑战
背景概述
Cosmetics_INCI_ABSA数据集聚焦于化妆品成分安全性的细粒度情感分析领域,由相关研究机构于近年构建,旨在解析消费者评论中对特定化妆品成分的情感倾向与安全评估。该数据集整合了产品信息、用户评论及成分安全标签,核心研究问题在于通过自然语言处理技术,自动识别评论中提及的化妆品成分及其对应的安全情感,以辅助化妆品行业进行产品优化与监管决策。其构建推动了化妆品安全性与消费者意见挖掘的交叉研究,为智能健康咨询系统提供了数据基础,增强了人工智能在消费品安全领域的应用潜力。
当前挑战
该数据集所解决的领域问题在于化妆品成分安全性情感分析,挑战包括成分术语的多样性与专业性导致的命名实体识别困难,以及评论中隐含情感与安全标签之间的复杂映射关系。构建过程中的挑战涉及大规模消费者评论数据的收集与清洗,需确保成分安全标签(如安全、限制使用、禁用)的准确标注,同时处理用户皮肤类型等上下文信息的噪声干扰,并维护数据隐私与合规性,这些因素共同增加了数据集构建的复杂性与可靠性要求。
常用场景
经典使用场景
在化妆品成分分析与情感挖掘领域,Cosmetics_INCI_ABSA数据集为研究者提供了丰富的用户评论与成分安全标签的关联数据。该数据集常被用于训练和评估方面级情感分析模型,以精准识别消费者对特定化妆品成分的情感倾向,例如用户对含有“水杨酸”或“视黄醇”等成分的正面或负面评价。通过结合皮肤类型、品牌信息等多维度特征,模型能够深入理解成分安全性与用户体验之间的复杂关系,为个性化推荐系统奠定数据基础。
实际应用
在实际应用中,Cosmetics_INCI_ABSA数据集支持化妆品企业开发智能产品分析工具,用于实时监测用户反馈并评估成分市场接受度。例如,品牌可利用该数据集构建自动化系统,扫描海量评论以识别潜在安全争议成分,优化产品配方决策;同时,电商平台可集成基于该数据的推荐引擎,根据用户皮肤类型和成分偏好提供个性化购物建议,提升消费者满意度与安全合规水平。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于Transformer的方面级情感分析模型优化,如结合成分嵌入与评论上下文的多任务学习框架;此外,研究者还开发了成分安全知识图谱构建方法,将数据集与外部法规数据库链接,以增强模型的可解释性。这些工作进一步推动了化妆品数字健康领域的交叉研究,例如开发用于成分风险预警的预测算法,或创建面向消费者的透明化成分查询工具。
以上内容由遇见数据集搜集并总结生成



