Turkish Satirical News Dataset

Name: Turkish Satirical News Dataset
Creator: 中东技术大学计算机工程系
Published: 2024-12-12 20:57:55
License: 暂无描述

arXiv2024-12-12 更新2024-12-14 收录

下载链接：

https://github.com/auotomaton/satiretr

下载链接

链接失效反馈

官方服务：

资源简介：

Turkish Satirical News Dataset是由中东技术大学计算机工程系的研究团队创建的一个用于讽刺新闻检测的开放数据集。该数据集包含了2202篇讽刺性文章和4781篇非讽刺性文章，总计6983条数据。数据集的内容来源于土耳其讽刺新闻出版物Zaytung和土耳其新闻机构Anadolu Agency。数据集的创建过程包括从公开来源爬取数据，并进行了详细的人工标注。该数据集主要用于解决讽刺新闻检测中的风格偏差问题，旨在提高模型在跨语言和跨领域环境下的泛化能力。

Turkish Satirical News Dataset is an open-access dataset for satirical news detection, developed by a research team from the Department of Computer Engineering at Middle East Technical University. It comprises 2202 satirical articles and 4781 non-satirical articles, with a total of 6983 samples. The dataset is sourced from the Turkish satirical news publication Zaytung and the Turkish news agency Anadolu Agency. The dataset construction process involves crawling data from public sources and conducting detailed manual annotation. This dataset is primarily designed to address the style bias issue in satirical news detection, aiming to improve the generalization ability of models in cross-lingual and cross-domain scenarios.

提供机构：

中东技术大学计算机工程系

创建时间：

2024-12-12

搜集汇总

数据集介绍

构建方式

土耳其讽刺新闻数据集（Turkish Satirical News Dataset）通过爬取土耳其讽刺新闻网站Zaytung和土耳其新闻机构Anadolu Agency的档案构建而成。数据集包括2825篇讽刺新闻文章和4781篇非讽刺新闻文章，涵盖了时间戳、标题、正文和图片等信息。为了确保数据集的代表性，2014年之前的文章被剔除，同时对部分讽刺新闻文章进行了逐字逐句的人工标注，以捕捉讽刺内容的细节。

特点

该数据集的主要特点在于其多样性和详细的人工标注。讽刺新闻与非讽刺新闻在风格和内容上存在显著差异，数据集通过统计分析揭示了两者在词汇使用和句子结构上的不同。此外，数据集还提供了40篇讽刺新闻的逐字标注，帮助研究者更好地理解讽刺内容的构成。

使用方法

该数据集可用于讽刺新闻检测、风格迁移以及跨语言和跨领域的模型评估。研究者可以通过训练模型来区分讽刺与非讽刺新闻，并利用数据集中的标注信息进行可解释性分析。此外，数据集还可用于生成对抗网络（GAN）或大型语言模型（LLM）的训练，以减少讽刺文本中的风格偏差。

背景与挑战

背景概述

土耳其讽刺新闻数据集（Turkish Satirical News Dataset）由中东技术大学（METU）的Asli Umay Ozturk等人于2024年创建，旨在解决讽刺检测中的风格偏差问题。该数据集通过爬取土耳其讽刺新闻网站Zaytung和土耳其新闻机构Anadolu Agency的文章，构建了一个包含2202篇讽刺文章和4781篇非讽刺文章的语料库。该数据集的创建不仅为讽刺检测任务提供了丰富的资源，还通过详细的人工标注增强了数据集的可解释性，推动了跨语言和跨领域的讽刺检测研究。

当前挑战

该数据集面临的主要挑战包括：1）讽刺检测任务本身的复杂性，讽刺、反讽和讽刺之间的定义模糊，导致模型在识别讽刺内容时容易受到风格偏差的影响；2）数据集构建过程中，由于讽刺文章和非讽刺文章分别来自单一来源，导致数据集在风格和统计上存在偏差，模型可能过度依赖于文章的风格特征而非讽刺内容的本质；3）低资源语言的标注成本高，自动数据收集过程可能导致数据集的风格不平衡，进而影响模型的泛化能力。

常用场景

经典使用场景

Turkish Satirical News Dataset 主要用于讽刺新闻的检测任务。该数据集通过收集土耳其讽刺新闻网站 Zaytung 的文章以及土耳其新闻机构 Anadolu Agency 的非讽刺新闻文章，构建了一个包含讽刺与非讽刺新闻的平衡数据集。这一数据集的经典使用场景包括讽刺新闻的分类、风格偏差的消除以及模型的可解释性分析。通过这些任务，研究者可以评估模型在不同风格和语言环境下的鲁棒性和泛化能力。

衍生相关工作

Turkish Satirical News Dataset 的发布催生了一系列相关研究工作。首先，基于该数据集的去偏方法被广泛应用于其他低资源语言的文本分类任务中，尤其是在讽刺、讽刺和反讽检测领域。其次，该数据集的生成式去偏方法启发了其他研究者探索如何利用生成式模型来消除数据集中的风格偏差，并在其他任务中取得了显著进展。此外，该数据集还促进了可解释性人工智能（AI）和可解释机器学习（ML）方法的发展，特别是在讽刺新闻检测中的应用，帮助研究者更好地理解模型的决策过程。

数据集最近研究