five

fancyzhx/yelp_polarity

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/fancyzhx/yelp_polarity
下载链接
链接失效反馈
官方服务:
资源简介:
YelpPolarity数据集是一个用于二分类情感分析的大规模数据集。该数据集包含560,000条训练样本和38,000条测试样本,数据来源于Yelp Dataset Challenge 2015。数据集的构建方法是将1星和2星评价视为负面,3星和4星评价视为正面。数据集以CSV文件格式提供,包含两列:类别索引和评论文本。该数据集首次在Xiang Zhang等人的论文《Character-level Convolutional Networks for Text Classification》中作为文本分类基准使用。

YelpPolarity数据集是一个用于二分类情感分析的大规模数据集。该数据集包含560,000条训练样本和38,000条测试样本,数据来源于Yelp Dataset Challenge 2015。数据集的构建方法是将1星和2星评价视为负面,3星和4星评价视为正面。数据集以CSV文件格式提供,包含两列:类别索引和评论文本。该数据集首次在Xiang Zhang等人的论文《Character-level Convolutional Networks for Text Classification》中作为文本分类基准使用。
提供机构:
fancyzhx
原始信息汇总

数据集卡片 for "yelp_polarity"

数据集描述

数据集摘要

这是一个用于二元情感分类的大型Yelp评论数据集。数据集包含560,000条高度极性的训练评论和38,000条测试评论。数据集由Xiang Zhang从Yelp Dataset Challenge 2015中提取构建,并首次在以下论文中用作文本分类基准:

  • 论文: Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015).

支持的任务和排行榜

更多信息需要

语言

更多信息需要

数据集结构

数据实例

plain_text

  • 下载的数据集文件大小: 166.38 MB
  • 生成的数据集大小: 441.74 MB
  • 磁盘总使用量: 608.12 MB

训练集的一个示例如下:

json { "label": 0, "text": ""Unfortunately, the frustration of being Dr. Goldbergs patient is a repeat of the experience Ive had with so many other doctor..." }

数据字段

所有拆分中的数据字段相同。

plain_text

  • text: 一个string特征。
  • label: 一个分类标签,可能的值包括1 (0), 2 (1)。

数据拆分

名称 训练集 测试集
plain_text 560000 38000

数据集创建

策划理由

更多信息需要

源数据

初始数据收集和规范化

更多信息需要

源语言生产者是谁?

更多信息需要

注释

注释过程

更多信息需要

注释者是谁?

更多信息需要

个人和敏感信息

更多信息需要

使用数据的注意事项

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集策展人

更多信息需要

许可信息

更多信息需要

引用信息

bibtex @article{zhangCharacterlevelConvolutionalNetworks2015, archivePrefix = {arXiv}, eprinttype = {arxiv}, eprint = {1509.01626}, primaryClass = {cs}, title = {Character-Level {{Convolutional Networks}} for {{Text Classification}}}, abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.}, journal = {arXiv:1509.01626 [cs]}, author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann}, month = sep, year = {2015}, }

贡献

感谢@patrickvonplaten, @lewtun, @mariamabarham, @thomwolf, @julien-c 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,情感分析作为文本分类的重要分支,其数据集的构建需兼顾规模与质量。YelpPolarity数据集源自Yelp Dataset Challenge 2015,由Xiang Zhang等人精心构建。该数据集通过对Yelp平台上的用户评论进行极性划分,将一星和二星评价归类为负面情感,三星和四星评价归类为正面情感。从原始数据中随机抽取了56万条训练样本和3.8万条测试样本,确保了数据分布的均衡性。文本内容经过标准化处理,特殊字符如双引号和换行符均采用转义机制,最终以CSV格式存储,为模型训练提供了结构化的基础。
特点
作为情感分类任务的经典基准,YelpPolarity数据集展现出鲜明的特征。其数据规模庞大,总计包含59.8万条标注样本,为深度学习模型提供了充足的训练资源。样本极性高度鲜明,严格依据星级评分划分情感倾向,避免了中性样本的干扰。数据集采用二进制分类框架,标签体系简洁明确,负面情感对应类别1,正面情感对应类别2。文本内容源自真实用户评论,语言风格自然多样,涵盖了餐饮、服务等多元场景,为模型泛化能力提供了丰富的语言素材。
使用方法
在应用层面,该数据集主要服务于文本情感分类模型的训练与评估。研究者可通过HuggingFace平台直接加载数据集,利用预定义的训练集和测试集划分进行模型开发。数据字段包含文本内容与分类标签,可直接输入至卷积神经网络或Transformer架构进行端到端学习。评估阶段可采用准确率、F1分数等指标衡量模型性能,数据集的标准化格式确保了与主流机器学习框架的兼容性。值得注意的是,使用时应遵循原始论文的设定,保持训练测试比例以保障结果的可比性。
背景与挑战
背景概述
在自然语言处理领域,情感分析作为文本分类的重要分支,旨在从用户生成内容中自动识别情感倾向。YelpPolarity数据集由Xiang Zhang等人于2015年构建,源自Yelp Dataset Challenge 2015的公开评论数据。该数据集的核心研究问题聚焦于二元情感分类,通过将一星和二星评论定义为负面,三星和四星评论定义为正面,构建了包含56万训练样本和3.8万测试样本的大规模语料库。作为文本分类的经典基准,该数据集在推动字符级卷积神经网络等模型研究中发挥了关键作用,为情感分析算法的性能评估提供了标准化平台。
当前挑战
YelpPolarity数据集所针对的情感分类任务面临多重挑战:用户评论中普遍存在的讽刺、隐晦表达和语境依赖现象,导致传统文本特征难以准确捕捉情感极性;同时,评论文本长度和语言风格的巨大差异,要求模型具备处理变长序列和噪声数据的能力。在构建过程中,数据清洗面临特殊字符转义和格式统一的技术难题,例如引号与换行符的标准化处理。此外,从原始星级评分到二元标签的映射虽简化了分类任务,但损失了细粒度情感信息,且数据分布可能隐含平台用户群体的选择偏差。
常用场景
经典使用场景
在自然语言处理领域,情感分析作为文本分类的核心任务之一,其研究依赖于高质量的大规模标注数据集。YelpPolarity数据集以其丰富的餐厅和商业评论内容,为情感极性分类提供了经典的应用场景。该数据集通过二分类框架,将用户评论划分为积极与消极两类,成为评估卷积神经网络、循环神经网络等深度学习模型性能的基准平台。其海量的训练样本和清晰的标注逻辑,使得研究者能够深入探索文本特征提取与分类器设计的边界,推动了情感分析技术的持续演进。
衍生相关工作
YelpPolarity数据集的发布催生了一系列重要的学术研究与实践探索。在Zhang等人2015年的开创性工作中,该数据集被用于验证字符级卷积网络在文本分类中的有效性,推动了深度学习在NLP领域的早期应用。后续研究在此基础上拓展了注意力机制、预训练语言模型等先进技术在该数据集上的性能评估。此外,许多跨语言情感分析、领域自适应方法也以YelpPolarity为基准,进行模型迁移能力的检验,进一步丰富了文本情感理解的研究图谱。
数据集最近研究
最新研究方向
在情感分析领域,YelpPolarity数据集作为经典的二分类基准,持续推动着自然语言处理技术的演进。当前研究聚焦于利用预训练语言模型如BERT、RoBERTa进行迁移学习,以提升对复杂语义和隐含情感的理解能力。前沿探索涉及多模态情感分析,结合文本与用户画像数据,旨在更精准地捕捉评论中的情感倾向。同时,针对数据偏差和模型可解释性的研究日益受到关注,力求在商业智能应用中实现更公平、透明的决策支持。这些进展不仅深化了情感计算的理论基础,也为在线评论挖掘和消费者洞察提供了坚实的技术支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作