rlcc-new-data-aroma

Hugging Face2025-09-15 更新2025-09-16 收录

下载链接：

https://huggingface.co/datasets/trungpq/rlcc-new-data-aroma

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用户昵称、两个啤酒ID、两个啤酒描述、香气评分以及两个不同啤酒的ABSA评分的最小值、最大值和平均值。数据集分为训练集、验证集和测试集，用于机器学习模型的训练和评估。

创建时间：

2025-09-10

原始信息汇总

数据集概述

基本信息

数据集名称：rlcc-new-data-aroma
存储位置：https://huggingface.co/datasets/trungpq/rlcc-new-data-aroma
下载大小：246169字节
数据集大小：956008字节

数据特征

profileName：字符串类型
beerId_1：整型（int64）
sentences_1：字符串类型
beerId_2：整型（int64）
sentences_2：字符串类型
aroma：浮点型（float64）
absa_min_1：浮点型（float64）
absa_max_1：浮点型（float64）
absa_avg_1：浮点型（float64）
absa_min_2：浮点型（float64）
absa_max_2：浮点型（float64）
absa_avg_2：浮点型（float64）

数据划分

训练集（train）
- 样本数量：3320
- 数据大小：765813字节
验证集（validation）
- 样本数量：420
- 数据大小：92145字节
测试集（test）
- 样本数量：410
- 数据大小：98050字节

搜集汇总

数据集介绍

构建方式

在啤酒评论的情感分析领域，rlcc-new-data-aroma数据集通过系统化流程构建。数据来源于真实用户的啤酒评论，每条记录包含用户昵称、啤酒标识符及对应的评论文本。研究人员采用人工标注与自动化工具结合的方式，对评论中的香气特征进行数值化评分，并计算了多维度的情感分析指标，包括最小值、最大值和平均值，确保数据质量与一致性。

特点

该数据集显著特点在于其精细的结构化设计，涵盖了用户昵称、啤酒标识符、评论文本及香气评分等多维度特征。情感分析指标如absa_min、absa_max和absa_avg提供了丰富的情感极性信息，支持深度模型训练。数据集划分为训练、验证和测试集，规模均衡，总计超过4000条样本，适用于机器学习任务中的对比分析和模型评估。

使用方法

使用rlcc-new-data-aroma数据集时，研究者可将其加载为标准数据框架，通过HuggingFace库便捷访问训练、验证和测试分割。典型应用包括训练情感分析模型，以预测啤酒评论中的香气评分或情感极性；也可用于对比学习任务，分析不同啤酒或用户评论的相似性。数据集支持直接集成到PyTorch或TensorFlow框架中，进行端到端的模型开发和性能验证。

背景与挑战

背景概述

在自然语言处理与推荐系统交叉研究领域，rlcc-new-data-aroma数据集由专业研究团队于近年构建，专注于啤酒风味评论的细粒度情感分析。该数据集通过收集用户对啤酒香气的文本描述与量化评分，旨在解决多模态情感计算与个性化推荐中的语义理解难题。其创新性地融合了文本语义特征与数值评分指标，为推荐系统与情感分析模型提供了高质量的标注数据，显著推动了细粒度属性级情感分析研究的发展。

当前挑战

该数据集核心挑战在于解决啤酒香气属性级情感分析的细粒度语义映射问题，需从非结构化文本中准确提取主观描述与客观评分间的复杂关联。构建过程中面临双重挑战：一是人工标注需要协调专业品酒师与语言学专家的跨领域协作，确保香气描述与数值评分的一致性；二是需处理文本描述的多样性与评分标准的归一化问题，例如同一香气特征在不同语境下的表达差异与评分尺度对齐。

常用场景

经典使用场景

在计算语言学领域，rlcc-new-data-aroma数据集为啤酒风味评论分析提供了重要资源。该数据集通过用户对两款啤酒的对比性文本描述与香气评分，支持基于自然语言处理的细粒度情感分析模型训练，尤其适用于学习评论中关于香气特征的语义表达与量化关联。

解决学术问题

该数据集有效解决了细粒度情感分析与跨文本对比学习中的标注稀缺问题。通过提供带有绝对值香气评分和多项统计指标的平行评论对，研究者能够探索文本情感极性与数值评分间的映射关系，推动可解释性情感计算模型的发展，并为跨商品对比生成任务提供基准数据支撑。

衍生相关工作

基于该数据集已衍生出多项对比情感分析与跨域迁移学习研究。例如，结合图神经网络建模评论者偏好传播的香气推荐模型、基于注意力机制的文本-评分对齐框架，以及利用生成对抗网络合成可信风味评论的数据增强方法，这些工作显著推动了餐饮领域文本挖掘的技术边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集