polish_youth_slang_classification

Hugging Face2025-07-28 更新2025-07-29 收录

下载链接：

https://huggingface.co/datasets/jziebura/polish_youth_slang_classification

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是研究波兰青年俚语的语言模型的核心，用于训练神经网络对包含波兰青年俚语的文本进行情感分类。数据集包含训练集、验证集和测试集，比例为80-10-10。每个样本包括文本、情感标签以及四个元数据字段，如最突出的俚语单词、俚语单词的解释、发布日期和文本来源。

创建时间：

2025-07-25

原始信息汇总

polish_youth_slang_classification 数据集概述

数据集基本信息

任务类别: 文本分类
语言: 波兰语 (pl)
标签: 社交媒体、俚语
规模类别: 1K<n<10K
下载大小: 920776 字节
数据集大小: 1515891 字节

数据集结构

训练集 (train): 4337 个样本，1212545.0510881594 字节
验证集 (validation): 542 个样本，151533.1836960531 字节
测试集 (test): 543 个样本，151812.76521578754 字节

数据特征

特征名称	数据类型	描述
słowo slangowe	string	样本中最突出的俚语单词
znaczenie wyrazów slangowych	string	样本中俚语单词的解释
źródło	string	文本样本的来源
powiązana data	string	样本文本在互联网上发布的日期
tekst	string	包含俚语短语的采样文本
sentyment	int8	情感类别标签

情感类别映射

值	含义
0	负面情感
1	中性或模糊情感
2	正面情感

数据来源

城市词典（如 slangu.pl 或 miejski.pl）
2023 年至 2025 年年轻（30 岁以下）艺术家的流行波兰歌曲
16-24 岁波兰人描述他们听过或使用过的俚语术语的调查
最受欢迎的波兰年轻名人/内容创作者的 Instagram 帖子评论
最受欢迎的波兰年轻内容创作者的 YouTube 视频评论

数据集用途

该数据集旨在训练神经网络对包含波兰青年俚语短语的文本进行情感分类。它用作小型语言模型的训练数据，然后作为参考数据用于比较它们与大型语言模型的性能。

搜集汇总

数据集介绍

构建方式

在当代社会语言学研究中，青年俚语作为语言演变的鲜活样本备受关注。polish_youth_slang_classification数据集通过多源异构数据采集策略构建，其语料源自城市词典网站、16-24岁群体的问卷调查、流行音乐歌词及社交媒体评论，时间跨度覆盖2023至2025年。数据经过严格的清洗和标注流程，按8:1:1比例划分为训练集、验证集和测试集，每个样本包含原始文本、情感标签及四项元数据字段，为波兰青年亚文化研究提供了结构化数据支撑。

使用方法

作为专门针对波兰青年俚语情感分析的任务型数据集，其主要应用于小语言模型的训练与评估。使用时需以`tekst`字段作为模型输入，`sentyment`字段作为监督信号，三分类标签采用0-2的整型编码。研究人员可利用附加的元数据字段进行多维度分析，如结合`powiązana data`字段研究俚语语义演变，或通过`źródło`字段分析不同语境的表达差异。该数据集与标准NLP流程兼容，可直接加载至主流深度学习框架进行端到端训练。

背景与挑战

背景概述

波兰青年俚语分类数据集（polish_youth_slang_classification）源于一项针对当代波兰青年语言使用习惯的深入研究，作为硕士论文《分析波兰青年俚语的语言模型》的核心组成部分。该数据集由年轻学者团队于2023至2025年间构建，聚焦社交媒体时代非正式语言的动态演变特征。其核心研究问题在于探索俚语表达与情感极性之间的复杂映射关系，填补了斯拉夫语系中低资源语言在计算社会语言学领域的空白。数据来源涵盖网络词典、流行音乐歌词、青年群体问卷调查及社交媒体评论等多模态渠道，为研究数字原住民语言变异提供了珍贵的实证基础。

当前挑战

该数据集面临双重挑战：在领域问题层面，波兰俚语具有高度时效性和地域差异性，其情感极性常随语境发生微妙变化，传统文本分类模型难以捕捉这种非标准语言现象；在构建过程中，数据采集需平衡网络用语的真实性与隐私伦理，注释工作涉及大量文化特定知识的判断，且青年俚语的快速迭代特性导致数据集需要持续动态更新。此外，短文本中混合正式与非正式表达的语言特征，以及中立情感标注的主观性界定，均为模型训练带来显著困难。

常用场景

经典使用场景

在当代社会语言学研究中，波兰青年俚语分类数据集为探索非正式语言变体提供了重要资源。该数据集最经典的使用场景在于训练神经网络模型对包含俚语短语的文本进行情感分类，特别适用于分析社交媒体和流行文化中的青年语言现象。研究者通过该数据集能够深入理解俚语在不同语境下的情感倾向，为语言模型在非正式文本处理领域的性能评估建立基准。

解决学术问题

该数据集有效解决了青年亚文化语言研究中的关键问题。通过提供标注情感的俚语文本样本，填补了波兰语非正式语言资源库的空白，使研究者能够系统分析俚语的情感极性分布特征。其时间戳和来源标注为语言演变研究提供了历时维度，而详尽的俚语解释则解决了语义理解难题，为跨代际语言差异研究奠定数据基础。

实际应用

在商业智能和社会舆情分析领域，该数据集展现出重要应用价值。品牌营销机构可利用其分析年轻消费群体的语言偏好，优化广告文案的情感表达；教育工作者则能通过俚语情感倾向了解青少年心理状态。社交媒体平台可基于此类数据开发更精准的内容审核系统，识别网络交流中的潜在冲突或积极互动。

数据集最近研究