five

Yelp Reviews Dataset|情感分析数据集|自然语言处理数据集

收藏
github2023-12-02 更新2024-05-31 收录
情感分析
自然语言处理
下载链接:
https://github.com/oshengeenath/Sentiment_Analysis_on_Yelp_Reviews_Dataset_with_BERT_and_RoBERTa
下载链接
链接失效反馈
资源简介:
该数据集包含了Yelp上的评论数据,用于进行情感分析,特别是使用BERT和RoBERTa模型来比较这些模型在分析Yelp评论情感方面的有效性。

This dataset comprises review data from Yelp, specifically curated for sentiment analysis. It is particularly utilized to compare the efficacy of BERT and RoBERTa models in analyzing the sentiment of Yelp reviews.
创建时间:
2023-11-29
原始信息汇总

数据集概述

本数据集用于情感分析,主要针对Yelp评论,通过比较两种先进的模型——Hugging Face的bert-base-multilingual-uncasedcardiffnlp/twitter-roberta-base-sentiment-latest来分析评论中的情感表达。

模型使用

  • BERT Multilingual Uncased: 适用于理解多种语言,特别适合处理Yelp评论中多样化的语言特性。
  • Twitter RoBERTa: 专门针对情感分析进行微调,擅长理解英语情感的细微差别。

数据集来源

  • Yelp提供的评论数据集。
  • 数据集链接: Yelp Dataset
AI搜集汇总
数据集介绍
main_image_url
构建方式
Yelp Reviews Dataset的构建基于Yelp平台上用户提交的评论数据。该数据集通过爬虫技术从Yelp网站上抓取,涵盖了多个国家和地区的餐厅、服务和商品的评论。数据收集过程中,确保了评论的完整性和真实性,同时对文本进行了预处理,包括去除HTML标签、特殊字符和停用词,以保证数据的质量和可用性。
特点
Yelp Reviews Dataset的特点在于其广泛的地理覆盖和多样化的评论内容。数据集包含了数百万条评论,涵盖了从星级评价到详细文本反馈的多种信息形式。此外,该数据集还提供了用户、商家和评论之间的关联信息,使得研究者可以进行多维度的分析。评论的情感倾向和语言风格也为自然语言处理和情感分析提供了丰富的素材。
使用方法
Yelp Reviews Dataset可用于多种研究目的,包括但不限于情感分析、用户行为研究、推荐系统构建和市场分析。研究者可以通过分析评论文本,提取用户的情感倾向和偏好,进而优化推荐算法或改进服务质量。此外,该数据集还可用于训练和验证自然语言处理模型,如情感分类器和文本生成模型。使用时,建议根据具体研究需求选择合适的子集和特征进行分析。
背景与挑战
背景概述
Yelp Reviews Dataset,作为在线评论平台Yelp的核心数据集,自2004年由Yelp公司推出以来,已成为研究消费者行为、情感分析和自然语言处理等领域的重要资源。该数据集包含了数百万条用户对各类商家,如餐厅、酒店和美容院等的评论,每条评论附有评分、评论文本、评论时间及用户信息等。通过这些数据,研究者能够深入分析消费者对不同服务的满意度,进而为商家提供改进建议,同时也推动了机器学习在情感分析和文本分类方面的应用。Yelp Reviews Dataset的广泛应用,不仅提升了消费者体验,也为学术界提供了丰富的研究素材。
当前挑战
尽管Yelp Reviews Dataset在情感分析和消费者行为研究中具有重要价值,但其构建和使用过程中仍面临诸多挑战。首先,评论文本的多样性和复杂性使得情感分类任务变得异常困难,尤其是处理 sarcasm、irony 等复杂情感表达时。其次,数据集的规模庞大,导致数据清洗和预处理工作量巨大,如何高效地去除噪声和无关信息成为一大难题。此外,用户生成内容的质量参差不齐,部分评论可能包含误导性信息或恶意攻击,这对模型的准确性和公正性提出了更高要求。最后,随着时间推移,评论数据不断更新,如何实时更新模型以保持其有效性也是一个持续的挑战。
发展历史
创建时间与更新
Yelp Reviews Dataset最初由Yelp公司于2013年创建,旨在提供一个公开的、大规模的用户评论数据集,以支持自然语言处理和机器学习研究。该数据集自创建以来,经历了多次更新,最近一次重大更新是在2021年,增加了更多的评论数据和元数据,以反映Yelp平台的最新发展。
重要里程碑
Yelp Reviews Dataset的一个重要里程碑是其在2015年的发布,当时该数据集首次包含了超过100万条评论,极大地推动了情感分析和文本挖掘领域的研究。随后,2018年的更新引入了更多的元数据,如用户信息和商家详情,进一步丰富了数据集的应用场景。2021年的更新则标志着数据集的规模和多样性达到了新的高度,为研究者提供了更为全面的数据资源。
当前发展情况
当前,Yelp Reviews Dataset已成为自然语言处理和机器学习领域的重要资源,广泛应用于情感分析、推荐系统、用户行为预测等多个研究方向。该数据集不仅为学术界提供了丰富的实验数据,还促进了工业界在客户反馈分析和用户体验优化方面的应用。随着Yelp平台的持续发展,预计该数据集将继续更新,以反映最新的市场趋势和用户行为,进一步推动相关领域的研究和技术进步。
发展历程
  • Yelp平台正式上线,开始收集用户评论数据。
    2004年
  • Yelp首次公开发布其用户评论数据集,供学术研究和商业分析使用。
    2006年
  • Yelp Reviews Dataset被广泛应用于自然语言处理和情感分析领域的研究中,成为该领域的重要基准数据集。
    2013年
  • Yelp发布了一个包含超过100万条评论的扩展数据集,进一步推动了相关研究的发展。
    2015年
  • Yelp Reviews Dataset被用于多个国际会议和竞赛中,如KDD和ACL,展示了其在数据挖掘和机器学习领域的应用价值。
    2018年
  • Yelp继续更新和扩展其数据集,增加了更多元数据和多语言支持,以适应全球化的研究需求。
    2020年
常用场景
经典使用场景
在自然语言处理领域,Yelp Reviews Dataset 常用于情感分析任务。研究者们利用该数据集训练和验证情感分类模型,旨在识别和分类用户评论中的积极、消极和中性情感。通过分析海量的用户评论,模型能够更准确地捕捉语言表达中的情感倾向,从而为商家提供改进服务和产品的方向。
实际应用
在实际应用中,Yelp Reviews Dataset 被广泛用于商业智能和客户关系管理。企业利用情感分析模型,实时监控和分析用户反馈,识别服务中的问题和改进机会。此外,该数据集还支持个性化推荐系统,通过分析用户评论中的情感倾向,提供更符合用户偏好的产品和服务推荐。
衍生相关工作
基于 Yelp Reviews Dataset,研究者们开展了多项相关工作。例如,有研究利用该数据集进行跨领域情感迁移学习,提升了模型在不同领域中的泛化能力。此外,还有工作探索了多模态情感分析,结合文本和图像数据,进一步提高了情感识别的准确性。这些衍生工作不仅丰富了情感分析的研究内容,也为实际应用提供了更多可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

WorldClim

WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。

www.worldclim.org 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录