yelp_review_full|自然语言处理数据集|评论分析数据集

github2024-05-31 更新2024-06-29 收录

自然语言处理

评论分析

下载链接：

https://github.com/ustcchx/Finetuning-ChatGLM-6B-Yelp

下载链接

链接失效反馈

资源简介：

yelp_review_full数据集是一个用于评估和微调ChatGLM-6B-base模型的数据集，主要用于五星制评论的多分类任务。

创建时间：

2024-05-31

原始信息汇总

yelp_review_full数据集上lora微调ChatGLM-6B-base

1. 文件夹介绍

bash：存放linux系统训练、测试、导出模型的.sh脚本
data_process：设计prompt并处理数据集的脚本
fig：训练时的测试集与验证集loss图像
LLaMA-Factory：微调框架
report：任务报告
slurm-out：提交作业后的计算节点输出
test-result：测试输出结果处理，其中有对F1-score指标的计算

2. 微调后模型性能与微调前的性能比较

评价指标：采用三种不同的F1-score（micro、macro、weighted）作为评价指标。

F1-score	Origin	Finetuned
micro	0.406	0.695
macro	0.183	0.579
weighted	0.403	0.695

结论：微调前后性能发生显著变化，认定微调结果是有效的。

AI搜集汇总

数据集介绍

构建方式

yelp_review_full数据集的构建基于Yelp平台上的用户评论，这些评论涵盖了广泛的商业服务和产品。数据集的构建过程包括从Yelp数据库中提取评论文本，并根据评论的星级评分进行分类。通过这种方式，数据集不仅包含了丰富的文本信息，还提供了明确的情感标签，为后续的情感分析和自然语言处理任务提供了坚实的基础。

特点

yelp_review_full数据集的主要特点在于其多样性和实用性。首先，数据集包含了大量的用户评论，这些评论来自不同的商业领域，涵盖了从餐饮到美容等多个行业。其次，数据集的评论文本具有较高的自然性和真实性，能够有效反映用户的真实体验和情感。此外，数据集的星级评分系统为情感分析提供了明确的标签，使得数据集在情感分类任务中具有显著优势。

使用方法

使用yelp_review_full数据集时，首先需要对数据进行预处理，包括文本清洗、分词和情感标签的提取。随后，可以将数据集划分为训练集、验证集和测试集，用于模型训练和性能评估。在模型训练过程中，可以采用多种自然语言处理技术，如词嵌入、序列建模和情感分类算法，以提高模型的准确性和泛化能力。最后，通过对比微调前后的模型性能，可以评估数据集在实际应用中的有效性。

背景与挑战

背景概述

yelp_review_full数据集是由Yelp公司提供的，旨在为自然语言处理领域的研究人员提供一个高质量的文本分类资源。该数据集包含了大量用户对餐厅的评论，每条评论都被标记为1到5星的评分，从而形成了一个多分类任务的基础。这一数据集的创建，不仅为研究者提供了一个丰富的语料库，还推动了情感分析、文本分类等领域的研究进展。通过利用这一数据集，研究人员可以开发和验证各种文本分类模型，从而提升对用户评论情感的理解和预测能力。

当前挑战

尽管yelp_review_full数据集为文本分类提供了宝贵的资源，但其构建和应用过程中仍面临若干挑战。首先，评论文本的多样性和复杂性使得数据预处理和特征提取变得尤为困难。其次，由于评论涉及多种情感和主题，模型的泛化能力成为一个关键问题。此外，数据集的规模和质量也对模型的训练和评估提出了高要求。最后，如何在保持模型性能的同时，提高其对不同评分级别的区分能力，是当前研究中的一个重要挑战。

常用场景

经典使用场景

在自然语言处理领域，yelp_review_full数据集常用于情感分析任务。通过该数据集，研究人员可以训练和评估模型对用户评论情感的分类能力，特别是针对五星评价系统的多分类任务。这种应用场景不仅有助于提升模型在情感分析方面的准确性，还能为后续的文本生成和对话系统提供基础。

解决学术问题

yelp_review_full数据集在学术研究中解决了情感分析中的多分类问题，特别是在处理用户评论时，如何准确区分不同情感强度的问题。通过该数据集，研究人员能够开发和验证新的情感分类算法，推动情感分析技术的发展，并为相关领域的研究提供基准数据。

衍生相关工作

基于yelp_review_full数据集，许多研究工作得以展开，特别是在情感分析和自然语言处理领域。例如，有研究者利用该数据集进行模型微调，提升了ChatGLM-6B-base模型的性能，并在Huggingface平台上发布了微调后的模型。这些工作不仅推动了情感分析技术的发展，也为其他相关研究提供了新的思路和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

历史航班准点率

航班在最近30天里准点程度的参数综合，反映了该航班可能延误的概率指数。具体计算方法：在最近30天内，航班降落时间比计划降落时间（航班时刻表上的时间）延迟半小时以上或航班取消的情况称为延误，将出现延误情况的航班数量除以30天内实际执飞的航班数量得出延误率，准点率=1－延误率。每日全面更新一次。

苏州大数据交易所收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

有害气体检测设备调试自动化系统市场集中度评价数据

有害气体检测设备调试自动化系统作为保障工业安全生产、预防重大事故的核心技术装备，在石油化工、矿山开采、市政管网和环保监测等领域发挥着不可替代的作用。特别是在应对有毒有害气体泄漏、爆炸极限预警等高风险场景时，其智能化调试、多参数协同分析的特性，不仅能显著提升检测精度和响应速度，还能通过预防性维护大幅降低安全事故发生率。随着工业安全法规日趋严格和智能化监测技术的快速发展，该系统市场需求呈现加速增长态势。评价该市场的集中度，对于把握行业竞争格局、优化技术研发方向、制定精准的市场开发策略以及推动智能安全监测技术创新具有重要战略价值。1.数据采集：收集公司有害气体检测设备调试自动化系统在不同地区的销售数据，具体包括：时间、系统名称、区域、客户编号、销售额/万元、总销售额/万元。 2.数据处理：去除异常值和重复数据，确保数据的准确性和可靠性。将客户的销售额数据转换为市场份额（Si），即销售额占总销售额的比例。 3.具体计算过程和公式：市场份额计算：Si = 客户销售额 / 总销售额，市场集中度指数（CR）计算：CR = ∑(Si)^2，其中Si代表第i个客户的市场份额（销售额占总销售额的比例）。 4.数据分类分级应用：根据CR指数的大小，CR指数的取值范围为0到1，将市场集中度分为高集中度（0.7≤CR≤1）、中集中度（0.4≤CR＜0.7）和低集中度（0≤CR＜0.4）。

浙江省数据知识产权登记平台收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。