Turkish-Irony-Dataset

github2021-04-29 更新2024-05-31 收录

下载链接：

https://github.com/teghub/Turkish-Irony-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含220条土耳其微博客文本，分为两个`.txt`文件，每个文件包含110条讽刺和非讽刺的句子。所有数据均从土耳其社交媒体门户网站收集。

This dataset comprises 220 Turkish microblog texts, divided into two `.txt` files, each containing 110 sentences labeled as sarcastic and non-sarcastic. All data were collected from a Turkish social media portal.

创建时间：

2020-03-11

原始信息汇总

Turkish-Irony-Dataset

数据集概述

用途: 土耳其社交媒體上的諷刺檢測
語言: 土耳其語
樣本數量: 總共220個微部落格文本

數據組成

文件: 兩個.txt文件，分別為ironic.txt和non-ironic.txt
內容:
- ironic.txt: 110行，每行包含一個諷刺句子
  - 前101行按字典順序排列，無表情符號或表情
  - 後9行包含表情符號或表情，無特定順序
- non-ironic.txt: 110行，每行包含一個非諷刺句子
  - 前99行按字典順序排列，無表情符號或表情
  - 後11行包含表情符號或表情，無特定順序

數據來源

所有數據均來自土耳其社交媒體平台

引用信息

Y.Cemek, C. Cidecio, A.U.Ozturk, R.F.Cekinel, P.Karagoz, "Türkçe Resmi Olmayan Metinlerde İroni Tespiti için Sinirsel Yöntemlerin İncelenmesi (Investigating the Neural Models for Irony Detection on Turkish Informal Texts)", in IEEE 28th Signal Processing and Communications Applications Conference (SIU), Apr 2020.

搜集汇总

数据集介绍

构建方式

Turkish-Irony-Dataset的构建过程主要依赖于土耳其社交媒体平台上的微文本数据。研究者们从这些平台中收集了220条土耳其语文本，其中110条为讽刺性文本，110条为非讽刺性文本。每条文本的分类结果由三位评审通过多数投票决定，确保了数据的准确性和可靠性。数据以两个文本文件的形式存储，分别包含讽刺性和非讽刺性句子，且部分文本包含表情符号或表情图标。

特点

该数据集的特点在于其专注于土耳其语的讽刺检测，涵盖了社交媒体中常见的非正式文本。数据集中的文本经过精心筛选和分类，确保了讽刺性和非讽刺性文本的平衡。此外，部分文本包含表情符号或表情图标，这为研究者在处理自然语言时提供了更多的上下文信息。数据集的规模适中，适合用于训练和评估讽刺检测模型。

使用方法

使用Turkish-Irony-Dataset时，首先需要执行`data_prep.py`脚本，将CSV文件转换为TSV格式。随后，通过运行`run_model.py`脚本，可以对模型进行评估。评估结果的相关统计信息将保存在`outputs`目录中。该数据集适用于基于BERT等预训练模型的讽刺检测任务，支持10折交叉验证和权重冻结等高级功能，便于研究者进行模型性能的深入分析。

背景与挑战

背景概述

Turkish-Irony-Dataset 是一个专注于土耳其社交媒体文本中讽刺检测的数据集，由 Y.Cemek 等研究人员于 2020 年创建。该数据集包含 220 条土耳其语微文本，分为讽刺和非讽刺两类，每类各 110 条。数据来源于土耳其社交媒体平台，并通过多数投票机制进行标注。该数据集的发布旨在推动土耳其语自然语言处理领域的研究，特别是针对非正式文本中的讽刺检测问题。其研究成果已在 IEEE 第 28 届信号处理与通信应用会议（SIU）上发表，为土耳其语文本分析提供了重要的基准数据。

当前挑战

Turkish-Irony-Dataset 的构建与应用面临多重挑战。首先，讽刺检测本身是一个复杂的自然语言处理任务，尤其是在非正式文本中，讽刺的表达方式多样且依赖于语境，这对模型的语义理解能力提出了较高要求。其次，数据集的规模相对较小，仅包含 220 条样本，可能限制了模型的泛化能力。此外，数据集中部分文本包含表情符号或颜文字，这些非文本元素的处理增加了数据预处理的复杂性。在构建过程中，研究人员还需克服土耳其语特有的语言结构问题，如丰富的形态变化和复杂的语法规则，这对模型的训练和优化提出了额外的挑战。

常用场景

经典使用场景

Turkish-Irony-Dataset 主要用于土耳其语社交媒体文本中的讽刺检测研究。该数据集通过提供220条土耳其语微文本，其中包含110条讽刺性文本和110条非讽刺性文本，为研究者提供了一个标准化的测试平台。这些文本均来源于土耳其社交媒体平台，涵盖了多种语言风格和表达方式，使得该数据集在自然语言处理领域，尤其是讽刺检测任务中具有重要的参考价值。

衍生相关工作

基于 Turkish-Irony-Dataset，研究者已经开展了多项经典工作。例如，Y.Cemek 等人在 IEEE 28th Signal Processing and Communications Applications Conference (SIU) 上发表的论文中，利用该数据集研究了神经网络模型在土耳其语非正式文本中的讽刺检测效果。此外，该数据集还被用于改进 BERT 模型在土耳其语讽刺检测任务中的表现，通过引入权重冻结和10折交叉验证等技术，进一步提升了模型的准确性和鲁棒性。

数据集最近研究