five

turkish-nlp-suite/beyazperde-top-300-movie-reviews

收藏
Hugging Face2024-07-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/turkish-nlp-suite/beyazperde-top-300-movie-reviews
下载链接
链接失效反馈
官方服务:
资源简介:
BeyazPerde Top 300 Movie Reviews数据集是一个用于土耳其语电影评论情感分析的数据集,数据来源于Beyazperde.com网站上的电影评论。该数据集包含了300部最佳电影的观众评论,评论的星级分布从0.5到5.0不等,且数据分布不均衡,高星级评论(4.0和5.0)的数量远多于低星级评论。数据集被划分为训练集、验证集和测试集,分别包含3380、500和500条评论。该数据集提供了对情感进行细致分析的机会,例如将正面情感细分为“非常正面”或“一般正面”。

The BeyazPerde Top 300 Movie Reviews dataset is a Turkish sentiment analysis dataset for movie reviews, sourced from the Beyazperde.com website. The dataset includes audience reviews for the top 300 movies of all time, with star ratings ranging from 0.5 to 5.0. The dataset is highly unbalanced, with a significantly higher number of 4.0 and 5.0 star reviews compared to lower star ratings. The dataset is split into training, validation, and test sets, containing 3380, 500, and 500 reviews respectively. This dataset offers the challenge of understanding sentiment in a refined way, such as dissecting positive sentiment into very positive or okayish positive.
提供机构:
turkish-nlp-suite
原始信息汇总

数据集概述

基本信息

  • 名称:BeyazPerde Top 300 Movie Reviews
  • 语言:土耳其语(tr)
  • 许可:CC-BY-SA-4.0
  • 多语言性:单语
  • 大小:10K<n<100K
  • 任务类别:文本分类
  • 任务ID:情感分类
  • 美观名称:BeyazPerde Top 300 Movie Reviews

数据集描述

  • 领域:社交媒体
  • 数据来源:Beyazperde.com
  • 内容:包含300部最佳电影的观众评论

数据集摘要

  • 数据集提供土耳其语情感分析数据,数据来源于Beyazperde.com的流行电影评论。
  • 数据集包含的300部电影评论,展示了不同星级评分的分布,其中4星和5星评价数量远高于其他评级。

数据集实例

json { "movie": "Bay Evet", "text": "Tam kıvamında çok keyifli bir film", "rating": 4 }

数据分割

名称 训练 验证 测试
BeyazPerde Top 300 Movie Reviews 44015 5000 5000

引用信息

  • 支持:Google Developer Experts Program
  • 引用文献A Diverse Set of Freely Available Linguistic Resources for Turkish
  • 引用格式: bibtex @inproceedings{altinok-2023-diverse, title = "A Diverse Set of Freely Available Linguistic Resources for {T}urkish", author = "Altinok, Duygu", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.768", pages = "13739--13750", abstract = "This study presents a diverse set of freely available linguistic resources for Turkish natural language processing, including corpora, pretrained models and education material. Although Turkish is spoken by a sizeable population of over 80 million people, Turkish linguistic resources for natural language processing remain scarce. In this study, we provide corpora to allow practitioners to build their own applications and pretrained models that would assist industry researchers in creating quick prototypes. The provided corpora include named entity recognition datasets of diverse genres, including Wikipedia articles and supplement products customer reviews. In addition, crawling e-commerce and movie reviews websites, we compiled several sentiment analysis datasets of different genres. Our linguistic resources for Turkish also include pretrained spaCy language models. To the best of our knowledge, our models are the first spaCy models trained for the Turkish language. Finally, we provide various types of education material, such as video tutorials and code examples, that can support the interested audience on practicing Turkish NLP. The advantages of our linguistic resources are three-fold: they are freely available, they are first of their kind, and they are easy to use in a broad range of implementations. Along with a thorough description of the resource creation process, we also explain the position of our resources in the Turkish NLP world.", }
搜集汇总
数据集介绍
main_image_url
构建方式
在土耳其语自然语言处理领域,情感分析数据集的稀缺一直是制约研究进展的关键瓶颈。为弥补这一空白,研究者从土耳其知名影评网站Beyazperde.com出发,系统爬取了其评选的“史上最佳300部电影”所对应的观众评论数据。每条评论均保留了原始的星级评分(0.5至5.0分),并经过结构化处理,形成包含电影名称、评论文本和对应评分的三元组实例。最终数据集共收录4380条样本,被划分为训练集(3380条)、验证集(500条)和测试集(500条),为土耳其语情感分析任务提供了基础性资源。
使用方法
该数据集可直接用于文本分类任务中的情感分析模型训练与评估。研究者可基于星级评分构建多分类标签体系,例如将评分映射为正面、负面或更细粒度的情感类别。数据集以HuggingFace格式提供,支持通过datasets库一键加载,便于集成到标准NLP工作流中。建议在使用时注意类别不平衡问题,可结合重采样、加权损失函数或数据增强策略以提升模型在少数类上的表现。同时,该数据集也可作为土耳其语情感分析基准测试的一部分,用于评估不同预训练语言模型在该语言上的泛化能力。
背景与挑战
背景概述
在自然语言处理领域,情感分析作为文本分类的核心任务之一,对于理解用户观点和舆情监测具有重要价值。然而,土耳其语作为全球约8000万人使用的语言,其情感分析资源长期处于匮乏状态。为弥补这一空白,研究者Duygu Altınok于2023年创建了BeyazPerde Top 300 Movie Reviews数据集,该数据集源自土耳其知名电影评论网站Beyazperde.com,聚焦于史上最佳300部电影的观众评价。该数据集包含4380条标注样本,每条记录涵盖电影名称、评论文本及1至5星的评分等级,由Google开发者专家计划支持,并发表于ACL 2023会议。其核心研究问题在于为土耳其语情感分析提供细粒度标注资源,推动低资源语言的自然语言处理研究,对土耳其语NLP社区产生了重要影响,成为该领域基础性基准数据集之一。
当前挑战
该数据集面临的核心挑战在于其高度不平衡的评分分布:4星和5星的高分评价占据绝对多数,而0.5至3星的低分样本极为稀缺,这直接导致模型在区分负面与中性情感时性能受限,且难以精确捕捉“非常正面”与“一般正面”之间的细微情感差异。此外,构建过程中需从非结构化网页爬取数据,面临土耳其语特有的形态复杂性和拼写变体问题,例如词缀变化和口语化表达增加了标注一致性难度。同时,数据集规模较小(仅4380条)也限制了深度模型的有效训练,易引发过拟合现象。这些挑战共同构成了土耳其语细粒度情感分析任务中数据稀缺与类别失衡的双重困境。
常用场景
经典使用场景
在土耳其语自然语言处理领域,情感分析研究长期受限于标注资源的匮乏。BeyazPerde Top 300 Movie Reviews数据集应运而生,其核心价值在于为土耳其语电影评论提供细粒度的情感标注体系。该数据集汇聚了贝亚兹佩尔德网站上300部经典影片的观众评论,涵盖从0.5星到5星共十个等级的情感强度分布,尤其侧重于对正面情感进行精妙区分——例如区分“非常正面”与“尚可正面”的细微差异。这种多层次标注方式超越了传统二元或三元情感分类,为研究者提供了探索情感极性连续谱系与语义梯度的理想实验平台。数据集包含4380条评论,并划分为训练、验证与测试子集,便于开展可复现的对比实验,从而推动土耳其语情感分析从粗粒度向细粒度的范式转变。
解决学术问题
该数据集直面的核心学术挑战在于解决土耳其语情感分析中高度不平衡的标注分布问题。数据显示,4星与5星评论占据绝对多数,而低评分样本极为稀缺,这真实反映了电影评论场景中“正面评价偏差”的普遍现象。研究者借此可深入探究类别不平衡对分类器泛化性能的影响机制,并验证过采样、代价敏感学习或对比学习等缓解策略在土耳其语语境下的有效性。此外,细粒度的星级标注为多标签分类与排序学习提供了天然基准,有助于推动情感强度预测、情感语义层次建模等前沿课题。该数据集的发布填补了土耳其语在细粒度情感资源上的空白,为低资源语言的情感计算理论提供了关键实证支撑。
实际应用
在实际应用层面,该数据集赋能了多个土耳其语商业与社交场景。电影产业可借助基于该数据集训练的情感模型,自动聚合海量用户评论,生成影片口碑的量化分析报告,辅助制片方优化宣传策略或预测票房走势。流媒体平台与影视推荐系统能够利用细粒度情感特征,实现超越星级评分的个性化内容推荐,例如区分用户对喜剧片“愉悦式正面”与对剧情片“感动式正面”的情感差异。此外,该数据集还可用于构建土耳其语舆情监控工具,帮助企业或机构从社交媒体评论中快速识别公众情绪的微妙变化,从而及时调整公关策略或产品迭代方向。
数据集最近研究
最新研究方向
在自然语言处理领域,情感分析作为一项基础而关键的任务,持续吸引着研究者的目光,尤其对于资源稀缺的语言如土耳其语而言,高质量标注数据集的构建更是推动该方向发展的核心动力。BeyazPerde Top 300 Movie Reviews数据集应运而生,它聚焦于土耳其语电影评论的情感分类,其独特之处在于收集了来自Beyazperde.com上历史最佳300部影片的观众评价。该数据集不仅涵盖了从0.5到5.0的星级评分,更呈现了显著的不平衡分布——高分评价占据主导,这为细粒度情感分析带来了真实世界的挑战,即如何精准区分“非常正面”与“一般正面”之间的微妙差异。这一特性使其成为研究不平衡文本分类、情感极性细化以及鲁棒模型训练的宝贵资源。伴随ACL 2023论文的发表,该数据集已正式成为土耳其语NLP社区的重要基石,不仅推动了情感分析前沿技术的探索,也通过其开放性和易用性,为跨语言情感理解与低资源语言模型的发展提供了新的实验平台与评估基准。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务