Yelp/yelp_review_full|文本分类数据集|情感分析数据集

hugging_face2024-01-04 更新2024-06-15 收录

文本分类

情感分析

下载链接：

https://hf-mirror.com/datasets/Yelp/yelp_review_full

下载链接

链接失效反馈

资源简介：

YelpReviewFull数据集包含从Yelp网站收集的评论数据，主要用于情感分类任务。数据集包含650,000条训练样本和50,000条测试样本，每条数据包括一个文本字段和一个标签字段，标签表示评论的星级（1到5星）。数据集由众包方式创建，使用英语。

提供机构：

Yelp

原始信息汇总

数据集卡片 for YelpReviewFull

数据集描述

数据集概要

Yelp reviews 数据集包含来自 Yelp 的评论。它从 Yelp Dataset Challenge 2015 数据中提取。

支持的任务和排行榜

text-classification, sentiment-classification: 该数据集主要用于文本分类：给定文本，预测情感。

语言

评论主要以英语撰写。

数据集结构

数据实例

一个典型的数据点包含文本和相应的标签。

YelpReviewFull 测试集中的一个示例如下： json { label: 0, text: I got ew tires from them and within two weeks got a flat. I took my car to a local mechanic to see if i could get the hole patched, but they said the reason I had a flat was because the previous patch had blown - WAIT, WHAT? I just got the tire and never needed to have it patched? This was supposed to be a new tire. \nI took the tire over to Flynns and they told me that someone punctured my tire, then tried to patch it. So there are resentful tire slashers? I find that very unlikely. After arguing with the guy and telling him that his logic was far fetched he said hed give me a new tire "this time". \nI will never go back to Flynns b/c of the way this guy treated me and the simple fact that they gave me a used tire! }

数据字段

text: 评论文本使用双引号（"）进行转义，任何内部双引号通过两个双引号（""）进行转义。换行通过反斜杠后跟 "n" 字符进行转义，即 " "。
label: 对应于与评论相关的评分（1 到 5 之间）。

数据分割

Yelp reviews full star 数据集通过从 1 到 5 的每个评论星随机抽取 130,000 个训练样本和 10,000 个测试样本构建。总共包含 650,000 个训练样本和 50,000 个测试样本。

数据集创建

策划理由

Yelp reviews full star 数据集由 Xiang Zhang (xiang.zhang@nyu.edu) 从 Yelp Dataset Challenge 2015 构建。它首次在以下论文中用作文本分类基准：Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015).

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

您可以查看官方 yelp-dataset-agreement。

引用信息

Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015).

贡献

感谢 @hfawaz 添加此数据集。

AI搜集汇总

数据集介绍

构建方式

YelpReviewFull数据集由纽约大学的研究者Xiang Zhang构建，从Yelp Dataset Challenge 2015中随机选取了130,000条训练样本和10,000条测试样本，针对每个星级评价。数据集总共包含了650,000条训练样本和50,000条测试样本。数据通过字符级别的卷积网络进行文本分类，旨在对评论文本进行情感倾向预测。

特点

该数据集的特点在于其专注于评论文本的情感分类任务，涵盖了从1星到5星的完整评价体系。评论文本经过适当的转义处理，以适应数据格式的要求。此外，数据集采用单语种英文构建，保证了语言的一致性和处理的简便性。

使用方法

使用YelpReviewFull数据集时，用户需遵循Yelp提供的官方使用协议。数据集提供了训练和测试两个部分，可以通过标准的文本分类模型进行训练和评估。在模型评估方面，数据集支持多种指标，包括准确率、F1分数（宏观、微观和加权平均）以及精确度和召回率等，以全面衡量模型性能。

背景与挑战

背景概述

Yelp/yelp_review_full数据集，源于2015年Yelp数据集挑战赛，由纽约大学的研究员Xiang Zhang构建并首次应用于其研究论文《Character-level Convolutional Networks for Text Classification》中。该数据集包含了从Yelp网站收集的消费者评论，旨在用于文本分类任务，尤其是情感分析，即根据评论内容预测用户给出的星级评分。数据集涵盖了65万条训练样本和5万条测试样本，覆盖了1星至5星的所有评分等级，对自然语言处理领域的研究和实践具有重要的参考价值。

当前挑战

在数据集构建过程中，面临的主要挑战包括数据的质量控制和隐私信息的处理。数据标注的质量直接影响到模型的训练效果，而评论中的个人敏感信息需要被妥善处理以保护用户隐私。在研究领域问题方面，该数据集的使用者需要解决如何提高情感分类的准确性和鲁棒性，以及如何减少模型对噪声数据和异常值的敏感性等挑战。

常用场景

经典使用场景

在自然语言处理领域，Yelp/yelp_review_full数据集的经典使用场景是进行文本分类任务，尤其是情感分析。该数据集提供了海量的用户评价文本及其对应的星级标签，研究者可以基于此训练模型以识别文本中的情感倾向，从而实现自动化情感分析。

衍生相关工作

基于Yelp/yelp_review_full数据集，衍生出了众多经典工作，如字符级卷积神经网络在文本分类中的应用研究。这些工作推动了深度学习技术在文本处理领域的进展，并促进了情感分析、自然语言理解等相关领域的理论研究和技术发展。

数据集最近研究

最新研究方向

Yelp/yelp_review_full数据集作为文本分类领域的基石，近期研究方向主要聚焦于深度学习模型的微调与多模态融合。研究者们致力于通过细粒度的情感分析，不仅识别出正面或负面评价，还能准确区分情感的微妙差异。此外，结合用户画像和评论时间序列的分析，为情感预测提供了新的视角。这些研究对于提升在线服务质量评估、精细化用户服务具有重要的实践意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

历史航班准点率

航班在最近30天里准点程度的参数综合，反映了该航班可能延误的概率指数。具体计算方法：在最近30天内，航班降落时间比计划降落时间（航班时刻表上的时间）延迟半小时以上或航班取消的情况称为延误，将出现延误情况的航班数量除以30天内实际执飞的航班数量得出延误率，准点率=1－延误率。每日全面更新一次。

苏州大数据交易所收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

BBGRE

The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.

国家生物信息中心收录

2022_张家界市标准地图行政区划示意版32开

基于湖南省基础地理信息数据库，依据湖南省行政区划界线标准画法和最新境界、标准地名成果，采用其他自然地理要素和人文专题要素的现势性资料编制而成。

湖南大数据交易所收录