five

SeLeRoSa

收藏
arXiv2025-08-31 更新2025-11-25 收录
下载链接:
https://hf-mirror.com/datasets/unstpb-nlp/SeLeRoSa
下载链接
链接失效反馈
官方服务:
资源简介:
SeLeRoSa是一个用于新闻文章的罗马尼亚讽刺检测的句子级别数据集。数据集由13873个手动注释的句子组成,跨越社会问题、IT、科学和电影等多个领域。数据集来源于讽刺和非讽刺的罗马尼亚新闻网站,收集日期截止到2018年2月。数据集由六名母语为罗马尼亚的学生进行注释,最终包含8179个普通句子和5694个讽刺句子。数据集还提供了匿名化版本和预处理版本,可用于文本分析和经典机器学习系统。

SeLeRoSa is a sentence-level dataset for Romanian sarcasm detection in news articles. It comprises 13,873 manually annotated sentences spanning multiple domains including social issues, IT, science, and film. The dataset is sourced from both sarcastic and non-sarcastic Romanian news websites, with data collection completed in February 2018. It was annotated by six native Romanian-speaking students, resulting in 8,179 non-sarcastic sentences and 5,694 sarcastic sentences. Anonymized and preprocessed versions of the dataset are additionally provided, which can be used for text analysis and classical machine learning systems.
提供机构:
National University of Science and Technology POLITEHNICA Bucharest, Bucharest, Romania
创建时间:
2025-08-31
搜集汇总
数据集介绍
main_image_url
构建方式
在罗马尼亚语讽刺检测研究资源稀缺的背景下,SeLeRoSa数据集的构建始于从讽刺性与非讽刺性新闻网站的系统采集,采用Scrapy框架爬取原始文本并实施严格过滤,剔除涉及敏感话题或不当语言的内容。通过人工拆分新闻文本为独立句子,形成包含36,000句的初始语料库,并由六名母语标注者进行多轮精细标注,依据多数投票原则确定每句的讽刺或常规标签,最终形成包含13,873句的高质量数据集。
特点
该数据集作为首个罗马尼亚语句级讽刺检测资源,覆盖社会议题、信息技术、科学及电影等多个领域,其中社会类句子占比最高,达74.9%。其标注过程通过Fleiss’ Kappa(40.36%)等指标验证了标注者间的一致性,并提供了匿名化与预处理双版本,前者通过命名实体替换降低偏见,后者则进行词形还原与去停用词等操作,有效支持传统机器学习与深度学习模型的训练需求。
使用方法
针对自然语言处理任务,SeLeRoSa数据集按新闻文章划分训练集(9,800句)、验证集与测试集(各约2,000句),避免上下文信息泄露。研究可基于该数据集开展零样本或微调实验,评估如RoBERT、Gemma等预训练模型在讽刺检测中的表现,同时其匿名化设计有助于减少模型对特定实体的依赖,推动低资源语言场景下的鲁棒性研究。
背景与挑战
背景概述
讽刺检测作为自然语言处理领域的关键研究方向,旨在识别文本中通过反讽、夸张等手法表达的隐含批判意图。由布加勒斯特理工大学研究团队于2025年发布的SeLeRoSa数据集,是首个面向罗马尼亚语的句子级讽刺检测资源,包含13,873条涵盖社会议题、科技与影视领域的人工标注句子。该数据集通过系统采集2018年2月前的新闻文本,并采用六名母语标注者进行三重标注机制,显著填补了低资源语言在细粒度讽刺分析领域的空白,为跨语言语义理解研究提供了重要基础。
当前挑战
在讽刺检测任务中,模型需应对语义表层与真实意图的复杂对立关系,尤其需克服文化语境依赖性和语言微妙性带来的误判风险。SeLeRoSa构建过程中面临标注一致性挑战,其弗莱斯卡帕系数为40.36%,反映出讽刺主观性导致的标注分歧。数据预处理阶段需通过匿名化处理消除命名实体偏见,同时应对罗马尼亚语特殊字符标准化问题。实验表明,即使采用微调后的RoGemma 2模型,其最佳F1分数仅达80.72%,且模型普遍存在对讽刺类别的过度预测倾向,突显了句子级语义解耦的技术难点。
常用场景
经典使用场景
在自然语言处理领域,讽刺检测研究长期面临细粒度分析工具的匮乏。SeLeRoSa作为首个罗马尼亚语句级讽刺检测数据集,其经典应用场景聚焦于新闻文本的微观语义解析。该数据集通过13,873条人工标注的句子,为研究者提供了从社会议题到科技影评等多领域的分析样本,使模型能够捕捉隐蔽在单句结构中的反讽暗示与夸张修辞,有效弥补了传统文档级检测在语义精度上的不足。
实际应用
在实际应用层面,SeLeRoSa为罗马尼亚语区的媒体内容审核与信息可信度评估提供了技术基础。新闻机构可借助基于该数据集训练的模型,实时识别混杂在正常报道中的讽刺性陈述,避免读者因误解修辞手法而产生信息误判。教育领域亦能利用其构建语言理解教学工具,帮助学生辨析公共话语中的反讽表达,提升数字时代的媒介素养水平。
衍生相关工作
该数据集的发布催生了多项罗马尼亚语NLP的创新研究。基于其构建的基准测试框架,研究者相继开发了融合本地化预训练的RoGemma与RoLlama等模型,并在提示工程、推理机制优化等方向展开探索。这些工作不仅验证了多语言大模型在低资源语言任务上的迁移潜力,更推动了句级语义分析技术与讽刺检测任务的深度融合,为后续跨语言对比研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作