fancyzhx/yelp_polarity

Name: fancyzhx/yelp_polarity
Creator: fancyzhx
Published: 2024-01-18 11:18:51
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/fancyzhx/yelp_polarity

下载链接

链接失效反馈

官方服务：

资源简介：

YelpPolarity数据集是一个用于二分类情感分析的大规模数据集。该数据集包含560,000条训练样本和38,000条测试样本，数据来源于Yelp Dataset Challenge 2015。数据集的构建方法是将1星和2星评价视为负面，3星和4星评价视为正面。数据集以CSV文件格式提供，包含两列：类别索引和评论文本。该数据集首次在Xiang Zhang等人的论文《Character-level Convolutional Networks for Text Classification》中作为文本分类基准使用。

提供机构：

fancyzhx

原始信息汇总

数据集卡片 for "yelp_polarity"

数据集描述

数据集摘要

这是一个用于二元情感分类的大型Yelp评论数据集。数据集包含560,000条高度极性的训练评论和38,000条测试评论。数据集由Xiang Zhang从Yelp Dataset Challenge 2015中提取构建，并首次在以下论文中用作文本分类基准：

论文: Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015).

支持的任务和排行榜

更多信息需要

语言

更多信息需要

数据集结构

数据实例

plain_text

下载的数据集文件大小: 166.38 MB
生成的数据集大小: 441.74 MB
磁盘总使用量: 608.12 MB

训练集的一个示例如下：

json { "label": 0, "text": ""Unfortunately, the frustration of being Dr. Goldbergs patient is a repeat of the experience Ive had with so many other doctor..." }

数据字段

所有拆分中的数据字段相同。

plain_text

text: 一个string特征。
label: 一个分类标签，可能的值包括1 (0), 2 (1)。

数据拆分

名称	训练集	测试集
plain_text	560000	38000

数据集创建

策划理由

更多信息需要

源数据

初始数据收集和规范化

更多信息需要

源语言生产者是谁？

更多信息需要

注释

使用数据的注意事项

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集策展人

更多信息需要

许可信息

更多信息需要

引用信息

bibtex @article{zhangCharacterlevelConvolutionalNetworks2015, archivePrefix = {arXiv}, eprinttype = {arxiv}, eprint = {1509.01626}, primaryClass = {cs}, title = {Character-Level {{Convolutional Networks}} for {{Text Classification}}}, abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.}, journal = {arXiv:1509.01626 [cs]}, author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann}, month = sep, year = {2015}, }

贡献

感谢@patrickvonplaten, @lewtun, @mariamabarham, @thomwolf, @julien-c 添加此数据集。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，情感分析作为文本分类的重要分支，其数据集的构建需兼顾规模与质量。YelpPolarity数据集源自Yelp Dataset Challenge 2015，由Xiang Zhang等人精心构建。该数据集通过对Yelp平台上的用户评论进行极性划分，将一星和二星评价归类为负面情感，三星和四星评价归类为正面情感。从原始数据中随机抽取了56万条训练样本和3.8万条测试样本，确保了数据分布的均衡性。文本内容经过标准化处理，特殊字符如双引号和换行符均采用转义机制，最终以CSV格式存储，为模型训练提供了结构化的基础。

特点

作为情感分类任务的经典基准，YelpPolarity数据集展现出鲜明的特征。其数据规模庞大，总计包含59.8万条标注样本，为深度学习模型提供了充足的训练资源。样本极性高度鲜明，严格依据星级评分划分情感倾向，避免了中性样本的干扰。数据集采用二进制分类框架，标签体系简洁明确，负面情感对应类别1，正面情感对应类别2。文本内容源自真实用户评论，语言风格自然多样，涵盖了餐饮、服务等多元场景，为模型泛化能力提供了丰富的语言素材。

使用方法

在应用层面，该数据集主要服务于文本情感分类模型的训练与评估。研究者可通过HuggingFace平台直接加载数据集，利用预定义的训练集和测试集划分进行模型开发。数据字段包含文本内容与分类标签，可直接输入至卷积神经网络或Transformer架构进行端到端学习。评估阶段可采用准确率、F1分数等指标衡量模型性能，数据集的标准化格式确保了与主流机器学习框架的兼容性。值得注意的是，使用时应遵循原始论文的设定，保持训练测试比例以保障结果的可比性。

背景与挑战

背景概述

在自然语言处理领域，情感分析作为文本分类的重要分支，旨在从用户生成内容中自动识别情感倾向。YelpPolarity数据集由Xiang Zhang等人于2015年构建，源自Yelp Dataset Challenge 2015的公开评论数据。该数据集的核心研究问题聚焦于二元情感分类，通过将一星和二星评论定义为负面，三星和四星评论定义为正面，构建了包含56万训练样本和3.8万测试样本的大规模语料库。作为文本分类的经典基准，该数据集在推动字符级卷积神经网络等模型研究中发挥了关键作用，为情感分析算法的性能评估提供了标准化平台。

当前挑战

YelpPolarity数据集所针对的情感分类任务面临多重挑战：用户评论中普遍存在的讽刺、隐晦表达和语境依赖现象，导致传统文本特征难以准确捕捉情感极性；同时，评论文本长度和语言风格的巨大差异，要求模型具备处理变长序列和噪声数据的能力。在构建过程中，数据清洗面临特殊字符转义和格式统一的技术难题，例如引号与换行符的标准化处理。此外，从原始星级评分到二元标签的映射虽简化了分类任务，但损失了细粒度情感信息，且数据分布可能隐含平台用户群体的选择偏差。

常用场景

经典使用场景

在自然语言处理领域，情感分析作为文本分类的核心任务之一，其研究依赖于高质量的大规模标注数据集。YelpPolarity数据集以其丰富的餐厅和商业评论内容，为情感极性分类提供了经典的应用场景。该数据集通过二分类框架，将用户评论划分为积极与消极两类，成为评估卷积神经网络、循环神经网络等深度学习模型性能的基准平台。其海量的训练样本和清晰的标注逻辑，使得研究者能够深入探索文本特征提取与分类器设计的边界，推动了情感分析技术的持续演进。

衍生相关工作

YelpPolarity数据集的发布催生了一系列重要的学术研究与实践探索。在Zhang等人2015年的开创性工作中，该数据集被用于验证字符级卷积网络在文本分类中的有效性，推动了深度学习在NLP领域的早期应用。后续研究在此基础上拓展了注意力机制、预训练语言模型等先进技术在该数据集上的性能评估。此外，许多跨语言情感分析、领域自适应方法也以YelpPolarity为基准，进行模型迁移能力的检验，进一步丰富了文本情感理解的研究图谱。

数据集最近研究

fancyzhx/yelp_polarity

数据集卡片 for "yelp_polarity"

数据集描述

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

plain_text

数据字段

plain_text

数据拆分

数据集创建

策划理由

源数据

初始数据收集和规范化

源语言生产者是谁？

注释

注释过程

注释者是谁？

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见的讨论

其他已知限制

附加信息

数据集策展人

许可信息

引用信息

贡献