turkish-nlp-suite/beyazperde-all-movie-reviews

Name: turkish-nlp-suite/beyazperde-all-movie-reviews
Creator: turkish-nlp-suite
Published: 2024-07-15 18:18:44
License: 暂无描述

Hugging Face2024-07-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/turkish-nlp-suite/beyazperde-all-movie-reviews

下载链接

链接失效反馈

官方服务：

资源简介：

BeyazPerde All Movie Reviews数据集是一个用于土耳其语情感分析的数据集，数据来源于Beyazperde.com网站的电影评论。该数据集包含了观众对电影的评论及其对应的星级评分，评分范围从0.5到5.0。数据集的评分分布较为均衡，适用于理解正面、负面以及中性情感。数据集包含45,280条评论，分为训练集、验证集和测试集，分别包含35,280、5,000和5,000条评论。

The BeyazPerde All Movie Reviews dataset is a Turkish sentiment analysis dataset sourced from movie reviews on Beyazperde.com. The dataset includes audience reviews of movies along with their corresponding star ratings, ranging from 0.5 to 5.0. The distribution of star ratings is quite balanced, making it suitable for understanding positive, negative, and neutral sentiments. The dataset contains 45,280 reviews, divided into training, validation, and test sets with 35,280, 5,000, and 5,000 reviews respectively.

提供机构：

turkish-nlp-suite

原始信息汇总

数据集卡片 for turkish-nlp-suite/beyazperde-all-movie-reviews

数据集描述

数据集名称: BeyazPerde All Movie Reviews
领域: 社交媒体

数据集概述

Beyazperde Movie Reviews 提供土耳其语情感分析数据集，这些数据是从流行的电影评论网站 Beyazperde.com 上抓取的。所有电影评论包括关于所有时期电影的观众评论。以下是星级评分分布：

星级评分	数量
0.5	3,635
1.0	2,325
1.5	1,077
2.0	1,902
2.5	4,767
3.0	4,347
3.5	6,495
4.0	9,486
4.5	3,652
5.0	7,594
总计	45,280

星级评分看起来相当平衡。该数据集提供了理解情感的挑战，将正面情感细分为“非常正面”或“还算正面”。

数据集实例

该数据集的一个实例如下：

json { "movie": "Avatar", "text": "Açıkçası film beklentilerimi karşılayamadı. Tabi her şeyin ilki güzel ama son seride iyi olabilirdi. Filmde görsel olarak her şey güzeldi kendimi filmi izledikten sonra ıslanmış gibi hissettim :D Puan kırdığım noktalar filmin bilim kurgudan fantastiğe doğru kayması. Ardından sır kapısına döndürüp iyilik yapan iyilik bulur moduna girmesi. Çoğu sahnelerin çocuklara hitap etmesi. Neyse serinin üçüncü filmi sağlam olucak gibi...", "rating": 3.5 }

数据分割

名称	训练集	验证集	测试集
BeyazPerde All Movie Reviews	35,280	5,000	5,000

引用

如果您想在自己的工作中使用此数据集，请引用 A Diverse Set of Freely Available Linguistic Resources for Turkish：

bibtex @inproceedings{altinok-2023-diverse, title = "A Diverse Set of Freely Available Linguistic Resources for {T}urkish", author = "Altinok, Duygu", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.768", pages = "13739--13750", abstract = "This study presents a diverse set of freely available linguistic resources for Turkish natural language processing, including corpora, pretrained models and education material. Although Turkish is spoken by a sizeable population of over 80 million people, Turkish linguistic resources for natural language processing remain scarce. In this study, we provide corpora to allow practitioners to build their own applications and pretrained models that would assist industry researchers in creating quick prototypes. The provided corpora include named entity recognition datasets of diverse genres, including Wikipedia articles and supplement products customer reviews. In addition, crawling e-commerce and movie reviews websites, we compiled several sentiment analysis datasets of different genres. Our linguistic resources for Turkish also include pretrained spaCy language models. To the best of our knowledge, our models are the first spaCy models trained for the Turkish language. Finally, we provide various types of education material, such as video tutorials and code examples, that can support the interested audience on practicing Turkish NLP. The advantages of our linguistic resources are three-fold: they are freely available, they are first of their kind, and they are easy to use in a broad range of implementations. Along with a thorough description of the resource creation process, we also explain the position of our resources in the Turkish NLP world.", }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，情感分析是理解用户观点的重要任务，而高质量的数据集是其基石。BeyazPerde All Movie Reviews数据集源自土耳其知名的电影评论网站Beyazperde.com，通过系统化的网络爬取技术收集了涵盖不同历史时期的观众评论。该数据集包含45,280条样本，每条样本由电影名称、评论文本和对应的星级评分（0.5至5.0分）三部分构成。星级评分分布相对均衡，为细粒度情感分析提供了丰富的标注信号。数据集被划分为训练集（35,280条）、验证集（5,000条）和测试集（5,000条），便于模型训练与评估。

特点

该数据集的核心特点在于其细粒度的情感标注体系，通过10个星级等级捕捉从极度负面到极度正面的情感渐变，超越了传统的二分类或三分类情感标签。数据来源的单一平台特性保证了评论文本在语言风格和领域主题上的一致性，同时覆盖不同电影的评论增强了内容的多样性。此外，数据集采用CC-BY-SA-4.0许可协议，确保了开放获取的便利性，并附有详细的学术引用指南，促进研究可复现性。

使用方法

该数据集主要面向文本分类任务，尤其适用于情感分析场景。使用者可通过HuggingFace的datasets库直接加载，调用load_dataset('turkish-nlp-suite/beyazperde-all-movie-reviews')即可获取。在应用时，可将星级评分映射为情感类别（如将1-2分视为负面，3分视为中性，4-5分视为正面），或直接利用原始评分进行回归任务。建议结合土耳其语专用的预训练语言模型（如BERTurk）进行微调，以充分挖掘语言特征。

背景与挑战

背景概述

在自然语言处理领域，情感分析作为文本分类的核心任务之一，其研究进展高度依赖于高质量标注语料库的构建。土耳其语作为全球超八千万人使用的语言，其情感分析资源却长期匮乏，制约了相关技术在该语言社区的发展。2023年，研究者Duygu Altinok在ACL会议上发布了BeyazPerde All Movie Reviews数据集，该数据集由土耳其知名电影评论网站Beyazperde.com爬取而来，包含45,280条观众评论及对应的星级评分，覆盖从0.5到5.0的十级情感强度。该数据集不仅填补了土耳其语电影评论情感分析领域的空白，还因其均衡的评分分布和丰富的语义层次，为细粒度情感理解研究提供了宝贵资源，推动了土耳其语自然语言处理工具的普及与落地。

当前挑战

该数据集所解决的领域问题聚焦于土耳其语情感分类，尤其是面对非英语语言中情感表达的复杂性——例如土耳其语中丰富的词形变化、口语化表达及文化特定隐喻，使得传统基于词典或跨语言迁移的方法效果不佳。在构建过程中，研究者面临多重挑战：首先，来自Beyazperde.com的原始评论数据存在大量噪声，包括非正式拼写、表情符号及重复内容，需设计精细的清洗流程；其次，十级评分体系虽提供了细腻的情感粒度，但如何将离散的星级标签映射至连续的情感空间，以及处理用户评分与文本情感不一致的歧义样本，成为标注质量控制的难点；此外，数据集规模虽达四万余条，但相较于英语同类资源仍显不足，模型的泛化能力与少数类别（如0.5星评论）的表示学习仍是后续研究的瓶颈。

常用场景

经典使用场景

BeyazPerde All Movie Reviews 数据集在自然语言处理领域中最经典的应用场景是土耳其语情感分类任务。该数据集从土耳其知名影评网站 Beyazperde.com 爬取，包含超过4.5万条用户影评，每条评论附有从0.5到5.0的星级评分，评分分布相对均衡。研究者常利用该数据集的星级标签进行细粒度情感分析，例如将0.5–2.5星视为负面、3.0–3.5星视为中性、4.0–5.0星视为正面，从而构建三分类或五分类的情感模型。此外，由于影评文本长度不一且包含丰富的口语化表达，该数据集也适用于评估模型在非正式土耳其语文本上的泛化能力。

衍生相关工作

该数据集衍生了一系列重要的学术工作，其中最具代表性的是 Duygu Altınok 在 ACL 2023 上发表的论文《A Diverse Set of Freely Available Linguistic Resources for Turkish》。该论文不仅发布了 BeyazPerde All Movie Reviews，还整合了命名实体识别、其他情感分析数据集以及土耳其语 spaCy 预训练模型，构建了首个面向土耳其语的多元化语言资源套件。后续研究在此基础上探索了多任务学习，如同时进行情感分类与主题识别；也有工作利用该数据集评估大型语言模型（如 ChatGPT）在土耳其语情感任务上的零样本表现。此外，该数据集被纳入土耳其语 NLP 基准测试，成为衡量模型跨语言迁移能力的标准之一。

数据集最近研究