Turkish PETs

Name: Turkish PETs
Creator: 蒙特克莱尔州立大学
Published: 2024-07-18 06:13:42
License: 暂无描述

arXiv2024-07-18 更新2024-07-22 收录

下载链接：

https://github.com/hasancanbiyik/Turkish_PETs

下载链接

链接失效反馈

官方服务：

资源简介：

Turkish PETs数据集由蒙特克莱尔州立大学创建，是首个针对土耳其潜在委婉语（PETs）的公开数据集。该数据集包含6074条注释示例，涵盖多种语境下的委婉语和非委婉语表达。数据集的创建过程涉及从土耳其语语料库中收集和注释PETs，使用社交媒体和学术资源进行数据扩充。该数据集主要用于土耳其语中的委婉语检测，旨在解决自然语言处理中对委婉语理解的挑战。

The Turkish PETs Dataset was developed by Montclair State University, and it is the first publicly available dataset focused on Turkish Potential Euphemisms (PETs). This dataset contains 6,074 annotated examples covering both euphemistic and non-euphemistic expressions across a wide range of contexts. Its development process involves collecting and annotating PETs from Turkish language corpora, as well as conducting data augmentation using social media and academic resources. Primarily designed for euphemism detection in Turkish, this dataset aims to address the challenges associated with euphemism understanding in natural language processing (NLP).

提供机构：

蒙特克莱尔州立大学

创建时间：

2024-07-18

原始信息汇总

Turkish Delights: 土耳其委婉语数据集

数据集概述

该数据集包含与2024年SIGTURK论文《Turkish Delights: 土耳其委婉语数据集》相关的文件。

文件描述

turkish_pets_list: 该文件包含从各种来源收集的土耳其潜在委婉语词汇列表。
tr_pets_balanced_dataset: 该文件包含908个示例的平衡数据集。

搜集汇总

数据集介绍

构建方式

Turkish PETs数据集的构建首先通过分析其他语言中的PETs来识别土耳其语中的潜在委婉语，然后通过审查相关文献和社交媒体调查进一步扩展了PETs列表。随后，研究人员使用TS语料库项目中的土耳其语语料库，通过正则表达式搜索包含PETs的文本，并捕获每个PET的多种词形变化。最后，研究人员招募了具有语言学背景的土耳其母语者进行标注，以区分PETs的委婉语和非委婉语用法。

使用方法

Turkish PETs数据集可用于自然语言处理任务，如土耳其语委婉语检测。研究人员使用了预训练的基于转换器的模型，如XLM-RoBERTa和mBERT，以及专门在土耳其语文本上训练的语言模型，如bert-base-turkishcased和electra-base-turkish-cased-discriminator。他们使用数据集对模型进行微调，并使用F1、准确率和精确率作为评估指标来比较模型的表现。此外，该数据集还可用于开发自动委婉语检测系统，用于社交媒体监控、内容审核和低资源语言的委婉语检测。

背景与挑战

背景概述

土耳其语中的委婉语作为一种相对较少研究的比喻性语言形式，在自然语言处理领域内的重要性日益凸显。Hasan Can Biyik、Patrick Lee和Anna Feldman等研究人员于近期创建了一个名为Turkish PETs的数据集，旨在为土耳其语中的潜在委婉语（PETs）提供首个可用数据集。该数据集的创建时间尚未明确，但其核心研究问题集中在如何识别和分类土耳其语中的委婉语。研究人员通过收集土耳其语中的委婉语列表、例句和注释，为PETs提供了委婉和非委婉的示例。该数据集不仅对土耳其语的自然语言处理领域产生了重要影响，而且对跨语言和跨文化语境中委婉语的利用和解释也提供了深入理解。

当前挑战

尽管Turkish PETs数据集的创建为土耳其语委婉语的自动检测提供了宝贵资源，但在实际应用中仍面临诸多挑战。首先，土耳其语作为一种粘着语，其丰富的词形变化使得基于规则的系统难以识别委婉语。其次，土耳其语中的词序自由度较大，使得固定模式或词序难以用于委婉语的识别。此外，委婉语的意义依赖于上下文，同一词语在不同的句子中可能具有不同的含义。最后，由于土耳其语是一种低资源语言，收集和标注数据集的过程极具挑战。因此，在土耳其语中进行委婉语检测任务需要克服上述挑战，并进一步探索模型大小、架构和训练数据对委婉语检测性能的影响。

常用场景

经典使用场景

在自然语言处理领域，委婉语（Euphemisms）是一种相对未被充分研究的比喻语言形式。Turkish PETs数据集，作为该领域首个可用数据集，提供了土耳其语中委婉语及其非委婉语例子的标注数据，为研究者提供了宝贵的资源。该数据集最经典的使用场景之一是用于训练和评估土耳其语委婉语检测模型，通过使用诸如BERTurk和Electra等基于转换器的模型，在二分类任务上进行实验，以识别文本中是否包含委婉语。

解决学术问题

Turkish PETs数据集解决了土耳其语委婉语检测任务中缺乏可用数据集的问题。由于土耳其语是一种低资源语言，且委婉语的使用具有文化特异性，因此在此之前，研究者面临收集和标注土耳其语委婉语数据的挑战。该数据集的创建不仅填补了这一空白，而且为研究土耳其语中委婉语的使用和解释提供了基础，有助于更好地理解不同语言和文化背景下委婉语的运用。

实际应用

Turkish PETs数据集的实际应用场景包括但不限于社交媒体监控、内容审查和情感分析。通过将基于该数据集训练的模型集成到NLP工具中，可以自动检测文本中的委婉语，从而帮助分析公众对敏感话题的态度和意见，识别潜在的伤害性或冒犯性内容，维护在线平台的尊重和安全环境。此外，该数据集也为低资源语言中的委婉语检测系统的发展提供了可能，促进了不同语言和文化在NLP研究和应用中的包容性。

数据集最近研究