Headlines dataset for Sarcasm Detection

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/rishabhmisra/News-Headlines-Dataset-For-Sarcasm-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专门为Sarcasm Detection任务收集，从两个新闻网站收集了新闻标题，其中TheOnion提供讽刺性新闻标题，而HuffPost提供真实新闻标题。数据集的优势包括由专业人士编写的正式语言、高质量的标签以及自包含的标题，有助于更准确地检测讽刺元素。

This dataset is specifically curated for the task of Sarcasm Detection, comprising news headlines collected from two news websites. TheOnion provides sarcastic headlines, while HuffPost offers genuine news headlines. The strengths of the dataset include the formal language crafted by professionals, high-quality labels, and self-contained headlines, which facilitate more accurate detection of sarcastic elements.

创建时间：

2018-06-09

原始信息汇总

数据集概述

数据集名称

News-Headlines-Dataset-For-Sarcasm-Detection

数据集来源

TheOnion: 提供讽刺性新闻标题。
HuffPost: 提供真实新闻标题。

数据集优势

语言质量: 新闻标题由专业人士撰写，无拼写错误和非正式用法，减少数据稀疏性。
标签质量: TheOnion专门发布讽刺新闻，标签质量高，噪音少。
内容独立性: 新闻标题自包含，无需额外上下文即可判断讽刺元素。

数据结构

is_sarcastic: 1表示讽刺，0表示非讽刺。
headline: 新闻文章标题。
article_link: 指向原始新闻文章的链接。

数据集统计

总记录数: 28,619
讽刺记录数: 13,635
非讽刺记录数: 14,984

引用信息

文章1: Misra, Rishabh and Prahal Arora. "Sarcasm Detection using News Headlines Dataset." AI Open (2023).
文章2: Misra, Rishabh and Jigyasa Grover. "Sculpting Data for ML: The first act of Machine Learning." ISBN 978-0-578-83125-1 (2021).

搜集汇总

数据集介绍

构建方式

为了克服Twitter数据集在标签和语言上的噪声问题，该Headlines数据集通过从两个新闻网站收集数据构建而成。具体而言，数据集从《TheOnion》网站的新闻简报和新闻图片类别中收集了所有讽刺性标题，这些标题由专业人士以正式方式撰写，确保了语言的规范性。同时，从《HuffPost》网站收集了真实且非讽刺的新闻标题，以提供对比数据。这种构建方式不仅减少了标签噪声，还提高了预训练嵌入词向量的可用性。

特点

该数据集相较于现有的Twitter数据集具有显著优势。首先，新闻标题的正式语言减少了拼写错误和非正式用语，降低了数据稀疏性，并增加了预训练嵌入词向量的可用性。其次，《TheOnion》网站专门发布讽刺新闻，因此标签质量高，噪声少。此外，新闻标题是自包含的，不同于Twitter上的回复推文，这有助于更准确地识别讽刺元素。

使用方法

在Python中，可以通过定义一个解析函数来读取数据集。例如，使用以下代码可以读取并处理数据：`data = list(parseJson('./Sarcasm_Headlines_Dataset.json'))`。每个记录包含三个属性：`is_sarcastic`（标识是否为讽刺性标题）、`headline`（新闻标题）和`article_link`（原始新闻文章的链接）。这些属性为研究人员提供了丰富的信息，便于进行讽刺检测和其他相关研究。

背景与挑战

背景概述

讽刺检测作为自然语言处理领域的一个重要分支，长期以来依赖于Twitter等社交媒体平台的数据集。然而，这些数据集在标签和语言表达上存在显著的噪声，且许多推文是回复性质的，需要上下文信息来准确识别讽刺。为解决这一问题，Rishabh Misra和Prahal Arora于2023年创建了‘Headlines dataset for Sarcasm Detection’，该数据集从两个新闻网站——TheOnion和HuffPost——收集了大量新闻标题，前者专门发布讽刺新闻，后者则提供真实新闻。这一数据集通过专业编辑的正式语言，显著减少了标签噪声和语言不规范问题，为讽刺检测研究提供了更为可靠的数据基础。

当前挑战

尽管该数据集在语言规范性和标签质量上有所提升，但仍面临若干挑战。首先，讽刺表达的多样性和隐晦性使得准确分类仍具难度。其次，数据集的构建过程中，如何确保从TheOnion和HuffPost收集的数据在讽刺与非讽刺之间保持平衡，避免偏差，是一个重要问题。此外，尽管新闻标题相对独立，但某些讽刺元素可能依赖于更广泛的上下文，这要求模型具备一定的上下文理解能力。最后，数据集的规模虽大，但在特定领域的覆盖面和多样性上仍有扩展空间，以应对更为复杂的讽刺检测任务。

常用场景

经典使用场景

在自然语言处理领域，Headlines dataset for Sarcasm Detection 数据集的经典使用场景主要集中在讽刺检测任务上。该数据集通过收集自 *TheOnion* 和 *HuffPost* 的新闻标题，提供了高质量的讽刺与非讽刺文本对。研究者利用这些数据训练模型，以识别文本中的讽刺元素，从而提升机器对人类语言中复杂情感的理解能力。

衍生相关工作

基于 Headlines dataset for Sarcasm Detection 数据集，研究者们开展了一系列相关工作。例如，Misra 和 Arora 在其研究中探讨了如何利用该数据集进行讽刺检测，并提出了新的模型架构。此外，Grover 和 Misra 在其著作中详细阐述了数据集的构建过程及其在机器学习中的应用，为后续研究提供了宝贵的参考。

数据集最近研究