annotated dataset

Name: annotated dataset
Creator: 赫尔辛基大学
Published: 2026-05-12 01:00:51
License: 暂无描述

arXiv2026-05-12 更新2026-05-13 收录

下载链接：

https://github.com/dlylinyao/ONLY/tree/CHUM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由赫尔辛基大学研究团队创建，旨在支持基于检索增强生成的接地讽刺内容研究。数据集包含100条人工标注的讽刺性词典定义，每条定义均基于芬兰广播公司Yle的英文新闻内容生成，并由六位标注者从幽默性和政治相关性维度进行评分。数据通过自动化流程采集，包括网络爬取、时间戳过滤、情感分析和主题建模，最终利用RAG框架生成定义。该数据集主要应用于自然语言生成和计算幽默领域，用于评估模型在特定文化背景下生成具有政治意义的讽刺内容的能力，并探索LLM作为评估工具的可靠性。

提供机构：

赫尔辛基大学

创建时间：

2026-05-12

搜集汇总

数据集介绍

构建方式

在幽默生成这一极具主观性的研究领域中，讽刺作为一种深受文化语境影响的幽默形式，其自动化生成面临着尤为严峻的挑战。本研究提出了一种新颖的、基于检索增强生成（RAG）的讽刺生成管道，旨在生成扎根于最新新闻的讽刺性词典定义。该管道首先通过网页爬虫从芬兰公共广播公司Yle的英文新闻页面抓取文章，并利用时间戳过滤（仅保留30天内发布的文章）与情感分析（使用NLP-Town/bert-base-multilingual-uncased-sentiment模型，剔除评分低于1的极端负面内容）对数据进行筛选。随后，采用paraphrase-multilingual-MiniLM-L12-v2模型将文章转化为文本嵌入，应用UMAP降维与BERTopic无监督主题建模提取当前讨论热点，并以此自动选择候选词。对于每个候选词，通过all-MiniLM-L6-v2模型进行语义搜索，检索相似度高于0.1的最多3条新闻片段，最后将这些片段作为上下文传递给meta-llama/Meta-Llama-3-8B-Instruct模型，严格限定模型仅基于所提供新闻生成不超过50词的讽刺性定义。

使用方法

本数据集专为推进扎根式讽刺生成与评估研究而设计，使用方式灵活多样。研究人员可直接利用该标注语料作为基准，测试和比较不同大语言模型在幽默与政治维度上的生成能力。通过分析有/无RAG条件下定义的评分差异，可以量化检索增强技术对于提升输出政治相关性的实际贡献。同时，基于词语来源（主题词与随机词）的标注对比，为探究候选词选择策略对生成结果的影响提供了经验证据。此外，该数据集中包含的人类标注与LLM评判结果（涵盖Qwen2.5-7B、Llama-3.1-8B、Mistral-7B等五种模型），使其成为验证LLM作为评价器可靠性的理想测试床——特别是用于检验模型在娱乐性与政治相关性这两个维度上与人类判断的一致性。研究代码与完整标注数据已在GitHub上开源，便于复现与扩展。

背景与挑战

背景概述

幽默生成一直是大型语言模型（LLMs）面临的棘手挑战，而讽刺作为文化语境高度依赖的幽默形式，其自动生成与评估更显艰巨。2026年，赫尔辛基大学的研究团队（Oona Itkonen、Yuxin Su、Linyao Du和Ona De Gibert）聚焦芬兰语境，提出了一种基于检索增强生成（RAG）的讽刺生成流程，通过实时新闻生成讽刺性词典定义。该研究不仅构建了包含100条人工标注定义的数据集，还开发了针对性的评估框架，探究文化背景、词汇选择及RAG方法对讽刺质量的影响。这一工作在计算讽刺生成领域具有开创性，为后续研究提供了公开的代码与标准数据集，推动了对幽默主观性与文化依赖性的深入理解。

当前挑战

该数据集面临的核心领域挑战在于幽默生成的高度主观性与文化依赖性，讽刺作为兼具幽默与政治意义的复合体，难以用标准化指标衡量。实验表明，生成内容在政治相关性上表现尚可，但幽默维度评分普遍偏低（均分1.98），且人类标注者间一致性极低（Krippendorff's α仅0.07），凸显幽默评估的固有难度。构建过程中，挑战尤为突出：如何从新闻中筛选适合讽刺的主题并避免冒犯性内容？研究通过情感分析与时间戳过滤来降低风险，但RAG与主题建模均未能显著提升幽默生成效果，仅增强了政治针对性。此外，LLM作为评判者的评估能力在幽默维度上表现不佳，进一步证实了计算幽默生成与评估的长期困境。

常用场景

经典使用场景

在幽默计算与讽刺生成研究中，该标注数据集被广泛用作评估基于检索增强生成的讽刺文本质量的基准。研究者通常利用其包含的100条人工标注的讽刺字典定义，结合六名标注者对幽默性和政治相关性两个维度的评分，来验证不同生成策略——如话题词选择、有无RAG模块——对输出质量的影响。数据集尤其适用于对比不同文化背景标注者的评分差异，以及分析LLM作为评估者的可靠性，是推动基于新闻语境的讽刺生成任务标准化评估的重要资源。

解决学术问题

该数据集旨在解决讽刺生成任务中缺乏标准化评估框架与高质量标注数据的困境。现有研究多聚焦于幽默检测或非条件生成的评价，而该数据集首次为基于真实新闻的讽刺文本提供了多维度人工标注，涵盖幽默感与政治相关性两大核心维度。它揭示了当前大语言模型在生成幽默内容上的固有局限，即模型产出的文本更易被感知为具有政治意义而非幽默，同时证实了RAG与话题建模虽能提升政治相关性，却难以改善幽默品质。这些发现为讽刺生成任务的评估体系建设奠定了实证基础。

实际应用

在实际应用中，该数据集为新闻媒体、社交媒体平台与内容创作工具提供了讽刺内容质量控制与筛选的技术支撑。开发者可借助该数据集训练或微调模型，以识别自动生成的讽刺定义是否具备政治相关性与基本幽默品质，从而避免生成冒犯性或不恰当的文本。此外，基于该数据集构建的评估框架可嵌入新闻聚合平台的自动生成模块，辅助编辑快速筛选出兼具讽刺力度与安全性的内容，推动人机协作的幽默生成系统在新闻评论、政治讽刺专栏等场景中的落地。

数据集最近研究