yelp_review_full

github2024-05-31 更新2024-06-29 收录

下载链接：

https://github.com/ustcchx/Finetuning-ChatGLM-6B-Yelp

下载链接

链接失效反馈

官方服务：

资源简介：

yelp_review_full数据集是一个用于评估和微调ChatGLM-6B-base模型的数据集，主要用于五星制评论的多分类任务。

The Yelp Review Full dataset is a dataset designed for evaluating and fine-tuning the ChatGLM-6B-base model, and is primarily used for multi-class classification tasks of 5-star rating reviews.

创建时间：

2024-05-31

原始信息汇总

yelp_review_full数据集上lora微调ChatGLM-6B-base

1. 文件夹介绍

bash：存放linux系统训练、测试、导出模型的.sh脚本
data_process：设计prompt并处理数据集的脚本
fig：训练时的测试集与验证集loss图像
LLaMA-Factory：微调框架
report：任务报告
slurm-out：提交作业后的计算节点输出
test-result：测试输出结果处理，其中有对F1-score指标的计算

2. 微调后模型性能与微调前的性能比较

评价指标：采用三种不同的F1-score（micro、macro、weighted）作为评价指标。

F1-score	Origin	Finetuned
micro	0.406	0.695
macro	0.183	0.579
weighted	0.403	0.695

结论：微调前后性能发生显著变化，认定微调结果是有效的。

搜集汇总

数据集介绍

构建方式

yelp_review_full数据集的构建基于Yelp平台上的用户评论，这些评论涵盖了广泛的商业服务和产品。数据集的构建过程包括从Yelp数据库中提取评论文本，并根据评论的星级评分进行分类。通过这种方式，数据集不仅包含了丰富的文本信息，还提供了明确的情感标签，为后续的情感分析和自然语言处理任务提供了坚实的基础。

特点

yelp_review_full数据集的主要特点在于其多样性和实用性。首先，数据集包含了大量的用户评论，这些评论来自不同的商业领域，涵盖了从餐饮到美容等多个行业。其次，数据集的评论文本具有较高的自然性和真实性，能够有效反映用户的真实体验和情感。此外，数据集的星级评分系统为情感分析提供了明确的标签，使得数据集在情感分类任务中具有显著优势。

使用方法

使用yelp_review_full数据集时，首先需要对数据进行预处理，包括文本清洗、分词和情感标签的提取。随后，可以将数据集划分为训练集、验证集和测试集，用于模型训练和性能评估。在模型训练过程中，可以采用多种自然语言处理技术，如词嵌入、序列建模和情感分类算法，以提高模型的准确性和泛化能力。最后，通过对比微调前后的模型性能，可以评估数据集在实际应用中的有效性。

背景与挑战

背景概述

yelp_review_full数据集是由Yelp公司提供的，旨在为自然语言处理领域的研究人员提供一个高质量的文本分类资源。该数据集包含了大量用户对餐厅的评论，每条评论都被标记为1到5星的评分，从而形成了一个多分类任务的基础。这一数据集的创建，不仅为研究者提供了一个丰富的语料库，还推动了情感分析、文本分类等领域的研究进展。通过利用这一数据集，研究人员可以开发和验证各种文本分类模型，从而提升对用户评论情感的理解和预测能力。

当前挑战

尽管yelp_review_full数据集为文本分类提供了宝贵的资源，但其构建和应用过程中仍面临若干挑战。首先，评论文本的多样性和复杂性使得数据预处理和特征提取变得尤为困难。其次，由于评论涉及多种情感和主题，模型的泛化能力成为一个关键问题。此外，数据集的规模和质量也对模型的训练和评估提出了高要求。最后，如何在保持模型性能的同时，提高其对不同评分级别的区分能力，是当前研究中的一个重要挑战。

常用场景

经典使用场景

在自然语言处理领域，yelp_review_full数据集常用于情感分析任务。通过该数据集，研究人员可以训练和评估模型对用户评论情感的分类能力，特别是针对五星评价系统的多分类任务。这种应用场景不仅有助于提升模型在情感分析方面的准确性，还能为后续的文本生成和对话系统提供基础。

解决学术问题

yelp_review_full数据集在学术研究中解决了情感分析中的多分类问题，特别是在处理用户评论时，如何准确区分不同情感强度的问题。通过该数据集，研究人员能够开发和验证新的情感分类算法，推动情感分析技术的发展，并为相关领域的研究提供基准数据。

衍生相关工作

基于yelp_review_full数据集，许多研究工作得以展开，特别是在情感分析和自然语言处理领域。例如，有研究者利用该数据集进行模型微调，提升了ChatGLM-6B-base模型的性能，并在Huggingface平台上发布了微调后的模型。这些工作不仅推动了情感分析技术的发展，也为其他相关研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集