mrshu/amazonreviews
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mrshu/amazonreviews
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含数百万条亚马逊客户评论(输入文本)和星级评分(输出标签),用于训练fastText模型进行情感分析。数据集基于真实业务数据,规模适中,可以在普通笔记本电脑上快速训练。数据格式符合fastText监督学习教程的要求,类别标签为`__label__1`和`__label__2`,分别对应1-2星和4-5星的评论,3星评论被排除。评论标题被添加到文本前,大多数评论为英文,少数为其他语言如西班牙语。数据集来源于Xiang Zhang的Google Drive目录,并经过适配以用于fastText。
该数据集包含数百万条亚马逊客户评论(输入文本)和星级评分(输出标签),用于训练fastText模型进行情感分析。数据集基于真实业务数据,规模适中,可以在普通笔记本电脑上快速训练。数据格式符合fastText监督学习教程的要求,类别标签为`__label__1`和`__label__2`,分别对应1-2星和4-5星的评论,3星评论被排除。评论标题被添加到文本前,大多数评论为英文,少数为其他语言如西班牙语。数据集来源于Xiang Zhang的Google Drive目录,并经过适配以用于fastText。
提供机构:
mrshu
原始信息汇总
数据集概述
数据集描述
该数据集包含数百万条亚马逊客户评论(输入文本)和星级评分(输出标签),用于训练fastText模型进行情感分析。数据集规模适中,可以在普通笔记本电脑上几分钟内完成训练。
数据格式
fastText监督学习教程要求数据采用以下格式:
__label__<X> __label__<Y> ... <Text>
X和Y是类名,不带引号,且在同一行。- 在本数据集中,类名为
__label__1和__label__2,每行只有一个类。 __label__1对应1星和2星评论,__label__2对应4星和5星评论。- 3星评论(中性情感)不包含在数据集中。
- 评论标题前置于文本,后跟冒号和空格。
- 大部分评论为英文,少数为其他语言,如西班牙语。
数据来源
数据来自Xiang Zhang的Google Drive目录中的.csv格式文件,经过调整后适用于fastText。
训练与测试
训练
使用以下命令训练模型:
bash ./fasttext supervised -input train.ft.txt -output model_amzn
训练时间约为几分钟。
测试
使用以下命令进行测试:
bash ./fasttext test model_amzn.bin test.ft.txt
预期精确度和召回率为0.916。



