KOWIT-24

Name: KOWIT-24
Creator: 俄罗斯高等经济学院
Published: 2025-03-03 21:24:25
License: 暂无描述

arXiv2025-03-03 更新2025-03-06 收录

下载链接：

https://github.com/Humor-Research/KoWit-24

下载链接

链接失效反馈

官方服务：

资源简介：

KOWIT-24是一个细粒度注释的词游戏数据集，包含2700个俄罗斯新闻标题。该数据集的注释包括词游戏的存在性、类型、触发词游戏的语言单元以及词游戏所引用的词语或短语。KOWIT-24提供了词游戏的上下文信息，每个标题都伴有新闻导语和摘要。该数据集中最常见的词游戏类型是转换现有短语、习语和命名实体的机制。数据集适用于多语言计算幽默领域的研究，特别是词游戏检测和解释任务。

提供机构：

俄罗斯高等经济学院

创建时间：

2025-03-03

搜集汇总

数据集介绍

构建方式

KOWIT-24数据集的构建方式涉及从俄罗斯商业日报《Kommersant》中收集新闻标题，这些标题以其独特的讽刺风格而闻名。数据集包含了2700个标题，其中约一半被标注为含有文字游戏。每个含有文字游戏的标题都被分配了最多两种文字游戏机制，并标注了触发文字游戏的单词或短语（即文字游戏锚点）。此外，还提供了文字游戏所引用的参考单词、短语或实体，并在可能的情况下提供了维基百科/Wiktionary链接。每个标题都附有新闻导语和摘要，为文字游戏提供了上下文。

使用方法

使用KOWIT-24数据集的方法包括：1) 进行文字游戏检测和解释任务；2) 利用多级标注进行详细的语言学分析；3) 使用自动评估方法评估自然语言生成任务。数据集、评估脚本和所有用于复现实验的代码都可在https://github.com/Humor-Research/KoWit-24获取。

背景与挑战

背景概述

KOWIT-24是一个精心标注的俄语新闻标题数据集，包含了2,700个新闻标题，其中约一半包含文字游戏。该数据集由Alexander Baranov、Anna Palatkina、Yulia Makovka和Pavel Braslavski创建，旨在研究现代大型语言模型（LLMs）在文字游戏检测和解释任务上的能力。KOWIT-24数据集的独特之处在于其多层次的标注，包括文字游戏的存在、类型、触发文字游戏的词语或短语以及文字游戏所指的词语或短语。此外，每个包含文字游戏的标题都附有新闻摘要，为文字游戏提供了上下文。该数据集的创建对研究文字游戏和幽默理解具有重要的意义，并填补了先前数据集中基于变换的文字游戏实例的不足。

当前挑战

KOWIT-24数据集带来的挑战包括：1) 文字游戏检测和解释任务中，即使是先进的LLMs如GPT-4o也面临理解和解释文字游戏的挑战；2) 构建过程中遇到的挑战，如标注过程的客观性和主观性的平衡，以及特定编辑风格的潜在偏差。此外，实验中使用的LLMs数量有限，且未涉及广泛的提示工程，这可能导致结果的改进空间。

常用场景

经典使用场景

KOWIT-24数据集在自然语言处理领域，尤其是对于语言游戏和幽默理解的研究中具有重要作用。该数据集提供了2,700个俄罗斯新闻标题的详细注释，包括文字游戏的类型、触发文字游戏的词语或短语、以及文字游戏所指的词语或短语。这些注释使得研究人员可以更好地理解和分析语言游戏的机制和结构，从而改进语言模型的幽默理解和生成能力。

解决学术问题

KOWIT-24数据集解决了自然语言处理领域中一个重要的问题，即如何让机器理解和生成幽默。传统的幽默数据集往往只包含简单的幽默标签或分数，而KOWIT-24提供了更详细的注释，包括文字游戏的类型、触发文字游戏的词语或短语、以及文字游戏所指的词语或短语。这使得研究人员可以更好地理解和分析语言游戏的机制和结构，从而改进语言模型的幽默理解和生成能力。

实际应用

KOWIT-24数据集在实际应用中具有广泛的前景。例如，它可以用于改进聊天机器人的幽默理解和生成能力，使它们能够更好地进行机智的对话。此外，KOWIT-24还可以用于改进搜索引擎的搜索结果，使其能够更好地理解用户的幽默搜索意图。此外，KOWIT-24还可以用于改进广告和营销文案的幽默效果，使其更具吸引力和感染力。

数据集最近研究