five

SatireTR

收藏
github2024-12-11 更新2024-12-18 收录
下载链接:
https://github.com/auotomaton/satireTR
下载链接
链接失效反馈
官方服务:
资源简介:
SatireTR是一个土耳其讽刺新闻数据集,包含从土耳其讽刺新闻出版物Zaytung和土耳其新闻社AA收集的2202篇讽刺文章和4781篇非讽刺文章,以及40篇讽刺文章的人工标注。

SatireTR is a Turkish satirical news dataset consisting of 2202 satirical articles and 4781 non-satirical articles collected from the Turkish satirical news publication Zaytung and Turkish news agency AA, as well as manual annotations for 40 satirical articles.
创建时间:
2024-12-11
原始信息汇总

SatireTR: Turkish Satirical News Dataset

数据集概述

  • 数据来源: 数据集包含从土耳其讽刺新闻出版物Zaytung和土耳其新闻社AA收集的SATIRICALNON-SATIRICAL语料。
  • 数据规模:
    • SATIRICAL文章: 2202篇
    • NON-SATIRICAL文章: 4781篇
  • 人工标注: 对40篇SATIRICAL文章进行了人工标注。

数据文件

  • 原始数据:
    • satirical_zaytung.csv
    • nonsatirical_aa.csv
  • 人工标注文件:
    • satirical_human_annotated_40.docx
    • satirical_human_annotated_40.pdf

去偏和去偏后的讽刺数据

  • 研究背景: 该数据集是在研究"Make Satire Boring Again: Reducing Stylistic Bias of Satirical Corpus by Utilizing Generative LLMs"的范围内整理的。
  • 代码和生成数据: 代码和生成的数据可在DebiasingPipeline文件夹中找到。

训练和测试数据

  • 训练和测试样本: 土耳其讽刺新闻数据集的训练和测试样本可在DebiasingPipeline/code/data中找到。
  • 跨领域测试: 使用IronyTR进行跨领域测试。
  • 跨语言测试: 使用News Headlines Dataset进行跨语言测试。

训练讽刺分类器

  • 依赖安装: 需要安装相关库,命令如下:

    pip install -r requirements.txt

  • WandB API密钥: 需要提供WandB API密钥,命令如下:

    wandb.login(key=WANDB_API_KEY)

  • 评估管道: 可以使用掩码语言模型在数据集上评估提出的管道,命令如下:

    python debiasing_BERT_based.py --model_id "FacebookAI/xlm-roberta-large" --train "biased" --cache_dir None --skip_train False
    --wandb_proj_name "zaytung"

  • Llama模型评估: 需要先接受Hugging Face上的LICENSE AGREEMENT并生成访问令牌,然后可以运行Llama微调代码,命令如下:

    python llama_finetune.py --model_id "meta-llama/Llama-3.1-8B-Instruct" --hf_token "Hugging Face token" --train_file "data/train_combined.csv" --test_file "data/onion_test.csv" --output_dir "output/biased" --cache_dir None --skip_train False
    --epochs 5 --batch_size 2 --wandb_proj_name "zaytung"

搜集汇总
数据集介绍
main_image_url
构建方式
SatireTR数据集的构建基于土耳其讽刺新闻出版物Zaytung和土耳其新闻社AA的文本数据,精心收集了2202篇讽刺性文章和4781篇非讽刺性文章。为了确保数据质量,研究团队对40篇讽刺性文章进行了详细的人工标注,并提供了相应的标注文件。此外,该数据集的构建还涉及通过生成式大语言模型(LLMs)进行去偏处理的实验,旨在减少讽刺文本中的风格偏差,从而提升模型的检测性能。
特点
SatireTR数据集的显著特点在于其丰富的文本多样性和高质量的人工标注。数据集不仅涵盖了大量的讽刺与非讽刺文章,还通过去偏处理增强了数据的中立性,使得模型在跨领域和跨语言的讽刺检测任务中表现出更强的鲁棒性和泛化能力。此外,数据集的构建方法还为研究讽刺文本的分类、去偏和可解释性提供了宝贵的案例研究。
使用方法
使用SatireTR数据集时,用户首先需安装相关依赖库,并通过提供的代码脚本进行模型训练和评估。数据集的训练和测试样本已预先划分,用户可根据需求选择偏差数据、去偏数据或组合数据进行训练。此外,数据集还支持跨领域和跨语言的测试,用户可通过调用相应的代码脚本对模型进行全面评估。对于Llama模型的微调,用户需在Hugging Face平台上接受许可协议并获取访问令牌,以完成模型的训练和测试。
背景与挑战
背景概述
讽刺检测在从文本数据中准确提取观点和在线对抗虚假信息方面具有重要意义。然而,由于缺乏多样化的讽刺语料库,导致模型在检测过程中存在风格偏差,影响了检测性能。SatireTR数据集由土耳其讽刺新闻出版物Zaytung和土耳其新闻社AA收集,包含2202篇讽刺文章和4781篇非讽刺文章,并提供了40篇讽刺文章的人工标注。该数据集的创建旨在通过生成式大型语言模型减少训练数据中的偏差,提升讽刺和反讽检测任务的鲁棒性和泛化能力。
当前挑战
SatireTR数据集面临的挑战主要包括:1) 讽刺文本的风格偏差问题,这直接影响模型的检测性能;2) 跨领域和跨语言的检测任务,要求模型在不同语境下保持一致的检测能力;3) 数据集构建过程中,如何有效利用生成式语言模型进行去偏处理,以及如何确保去偏后的数据仍能保留讽刺文本的核心特征。此外,该数据集在应用于因果语言模型(如Llama-3.1)时,其去偏效果有限,这也是当前研究的一个瓶颈。
常用场景
经典使用场景
SatireTR数据集的经典使用场景主要集中在讽刺新闻的自动检测与分类任务中。通过提供大量标注的土耳其讽刺新闻和非讽刺新闻,该数据集为研究人员提供了一个丰富的资源,用于训练和评估讽刺检测模型。特别是在跨领域(如反讽检测)和跨语言(如英语)的设置中,该数据集展示了其在提升模型鲁棒性和泛化能力方面的潜力。
解决学术问题
SatireTR数据集解决了讽刺文本检测中的风格偏差问题,这一问题在现有数据集中普遍存在,导致模型在处理不同风格文本时的表现不佳。通过引入去偏方法,该数据集显著提升了模型在讽刺和反讽检测任务中的性能,尤其是在土耳其语和英语环境下的表现。这一研究不仅推动了讽刺检测技术的发展,还为对抗在线虚假信息提供了新的工具。
衍生相关工作
SatireTR数据集的发布催生了一系列相关研究,特别是在讽刺检测和文本风格去偏领域。例如,基于该数据集的研究已经扩展到跨语言和跨领域的讽刺检测任务,如英语反讽检测和多语言讽刺新闻分类。此外,该数据集还启发了对生成式大语言模型(如Llama-3.1)在讽刺文本生成和检测中的应用研究,进一步推动了自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作