CreativeLang/SARC_Sarcasm

Name: CreativeLang/SARC_Sarcasm
Creator: CreativeLang
Published: 2023-07-11 18:00:43
License: 暂无描述

Hugging Face2023-07-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CreativeLang/SARC_Sarcasm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于讽刺研究和检测系统训练与评估的大规模语料库，包含130万条讽刺性陈述，这一数量是之前任何数据集的十倍，并且包含更多非讽刺性陈述的实例。这使得在平衡和不平衡标签制度下进行学习成为可能。每条陈述都是自我注释的，即讽刺标签由作者而非独立注释者提供，并伴随用户、主题和对话上下文。数据集的准确性已被评估，讽刺检测的基准已建立，并且基线方法已被评估。

提供机构：

CreativeLang

原始信息汇总

数据集概述

数据集名称

名称: SARC_Sarcasm

数据集特征

特征列表:
- text: 字符串类型
- author: 字符串类型
- score: 整数类型（int64）
- ups: 整数类型（int64）
- downs: 整数类型（int64）
- date: 字符串类型
- created_utc: 整数类型（int64）
- subreddit: 字符串类型
- id: 字符串类型

数据集拆分

训练集:
- 数据量: 12704751个样本
- 大小: 1764500045字节

数据集大小

下载大小: 903559115字节
数据集总大小: 1764500045字节

许可证

许可证类型: cc-by-2.0

数据集描述

目的: 用于讽刺研究和训练评估讽刺检测系统
规模: 包含1.3百万个讽刺声明，比以往任何数据集大十倍
标注方式: 自我标注，由作者而非独立标注者标注
包含内容: 用户、话题和对话上下文信息
评估与基准: 数据集准确性已评估，建立了讽刺检测的基准

数据集元数据

类型: 讽刺
任务类型: 检测
创建时间: 2018年

搜集汇总

数据集介绍

构建方式

SARC_Sarcasm数据集的构建基于大规模的自注释语料库，旨在为讽刺研究提供丰富的资源。该数据集包含130万条讽刺性陈述，数量是先前数据集的十倍之多，并且还包含大量非讽刺性陈述。每个陈述均由作者自行标注，确保了讽刺标签的准确性，并附带了用户、主题和对话上下文信息。通过这种方式，数据集不仅支持平衡标签学习，也适用于不平衡标签的学习任务。

特点

SARC_Sarcasm数据集的主要特点在于其规模庞大且多样性丰富，提供了130万条讽刺性陈述，远超现有数据集的规模。此外，数据集中的每个陈述均由作者自行标注，确保了标签的准确性和一致性。数据集还包含了详细的上下文信息，如用户、主题和对话背景，这为讽刺检测任务提供了丰富的语境支持。

使用方法

SARC_Sarcasm数据集适用于讽刺检测任务的训练和评估。用户可以通过加载数据集中的训练集进行模型训练，利用测试集进行性能评估。数据集提供了多种特征，包括文本内容、作者信息、评分、上下文等，这些特征可以用于构建和优化讽刺检测模型。此外，数据集的规模和多样性使其成为研究讽刺语言和情感分析的理想资源。

背景与挑战

背景概述

讽刺语言的自动识别一直是自然语言处理领域中的一项重要挑战。CreativeLang/SARC_Sarcasm数据集由2018年创建，主要研究人员来自Surrey大学，旨在为讽刺检测提供一个大规模的自标注语料库。该数据集包含130万条讽刺语句，数量远超以往任何相关数据集，并包含大量非讽刺语句，使得在平衡和不平衡标签环境下进行学习成为可能。每条语句均由作者自标注，并附带用户、主题和对话上下文信息，极大地推动了讽刺检测研究的发展。

当前挑战

讽刺语言的识别面临多重挑战。首先，讽刺语言往往依赖于特定的上下文和语境，这增加了自动识别的复杂性。其次，讽刺与非讽刺语句之间的界限模糊，尤其是在缺乏明确上下文的情况下，区分两者变得尤为困难。此外，数据集的构建过程中，如何确保自标注的准确性以及如何处理大规模数据的高效存储和处理也是重要挑战。这些挑战不仅影响了讽刺检测模型的性能，也对数据集的质量和实用性提出了高要求。

常用场景

经典使用场景

在自然语言处理领域，CreativeLang/SARC_Sarcasm数据集因其庞大的规模和独特的标注方式，成为讽刺检测任务的经典资源。该数据集包含130万条讽刺性语句，远超以往任何相关数据集，且每条语句均由作者自行标注，确保了标注的准确性和一致性。研究者常利用此数据集训练和评估讽刺检测模型，尤其是在处理平衡和不平衡标签分布时，展现出显著的优势。

解决学术问题

CreativeLang/SARC_Sarcasm数据集有效解决了讽刺检测领域长期面临的标注数据稀缺问题。其庞大的数据规模和高质量的标注，为研究者提供了丰富的训练和测试资源，推动了讽刺检测模型的性能提升。此外，该数据集还为研究讽刺语言的多样性和复杂性提供了宝贵的语料，有助于深入理解讽刺在不同语境中的表现形式。

衍生相关工作

基于CreativeLang/SARC_Sarcasm数据集，研究者们开展了一系列相关工作，推动了讽刺检测技术的进步。例如，有研究提出了基于深度学习的讽刺检测模型，利用数据集中的丰富语料进行训练，显著提升了检测精度。此外，还有学者探讨了讽刺语言的跨文化差异，通过对比不同语言和文化背景下的讽刺表达，进一步丰富了该领域的理论研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集