CreativeLang/SARC_Sarcasm|讽刺检测数据集|自然语言处理数据集

hugging_face2023-07-11 更新2024-03-04 收录

讽刺检测

自然语言处理

下载链接：

https://hf-mirror.com/datasets/CreativeLang/SARC_Sarcasm

下载链接

链接失效反馈

资源简介：

该数据集是一个用于讽刺研究和检测系统训练与评估的大规模语料库，包含130万条讽刺性陈述，这一数量是之前任何数据集的十倍，并且包含更多非讽刺性陈述的实例。这使得在平衡和不平衡标签制度下进行学习成为可能。每条陈述都是自我注释的，即讽刺标签由作者而非独立注释者提供，并伴随用户、主题和对话上下文。数据集的准确性已被评估，讽刺检测的基准已建立，并且基线方法已被评估。

提供机构：

CreativeLang

原始信息汇总

数据集概述

数据集名称

名称: SARC_Sarcasm

数据集特征

特征列表:
- text: 字符串类型
- author: 字符串类型
- score: 整数类型（int64）
- ups: 整数类型（int64）
- downs: 整数类型（int64）
- date: 字符串类型
- created_utc: 整数类型（int64）
- subreddit: 字符串类型
- id: 字符串类型

数据集拆分

训练集:
- 数据量: 12704751个样本
- 大小: 1764500045字节

数据集大小

下载大小: 903559115字节
数据集总大小: 1764500045字节

许可证

许可证类型: cc-by-2.0

数据集描述

目的: 用于讽刺研究和训练评估讽刺检测系统
规模: 包含1.3百万个讽刺声明，比以往任何数据集大十倍
标注方式: 自我标注，由作者而非独立标注者标注
包含内容: 用户、话题和对话上下文信息
评估与基准: 数据集准确性已评估，建立了讽刺检测的基准

数据集元数据

类型: 讽刺
任务类型: 检测
创建时间: 2018年

AI搜集汇总

数据集介绍

构建方式

SARC_Sarcasm数据集的构建基于大规模的自注释语料库，旨在为讽刺研究提供丰富的资源。该数据集包含130万条讽刺性陈述，数量是先前数据集的十倍之多，并且还包含大量非讽刺性陈述。每个陈述均由作者自行标注，确保了讽刺标签的准确性，并附带了用户、主题和对话上下文信息。通过这种方式，数据集不仅支持平衡标签学习，也适用于不平衡标签的学习任务。

特点

SARC_Sarcasm数据集的主要特点在于其规模庞大且多样性丰富，提供了130万条讽刺性陈述，远超现有数据集的规模。此外，数据集中的每个陈述均由作者自行标注，确保了标签的准确性和一致性。数据集还包含了详细的上下文信息，如用户、主题和对话背景，这为讽刺检测任务提供了丰富的语境支持。

使用方法

SARC_Sarcasm数据集适用于讽刺检测任务的训练和评估。用户可以通过加载数据集中的训练集进行模型训练，利用测试集进行性能评估。数据集提供了多种特征，包括文本内容、作者信息、评分、上下文等，这些特征可以用于构建和优化讽刺检测模型。此外，数据集的规模和多样性使其成为研究讽刺语言和情感分析的理想资源。

背景与挑战

背景概述

讽刺语言的自动识别一直是自然语言处理领域中的一项重要挑战。CreativeLang/SARC_Sarcasm数据集由2018年创建，主要研究人员来自Surrey大学，旨在为讽刺检测提供一个大规模的自标注语料库。该数据集包含130万条讽刺语句，数量远超以往任何相关数据集，并包含大量非讽刺语句，使得在平衡和不平衡标签环境下进行学习成为可能。每条语句均由作者自标注，并附带用户、主题和对话上下文信息，极大地推动了讽刺检测研究的发展。

当前挑战

讽刺语言的识别面临多重挑战。首先，讽刺语言往往依赖于特定的上下文和语境，这增加了自动识别的复杂性。其次，讽刺与非讽刺语句之间的界限模糊，尤其是在缺乏明确上下文的情况下，区分两者变得尤为困难。此外，数据集的构建过程中，如何确保自标注的准确性以及如何处理大规模数据的高效存储和处理也是重要挑战。这些挑战不仅影响了讽刺检测模型的性能，也对数据集的质量和实用性提出了高要求。

常用场景

经典使用场景

在自然语言处理领域，CreativeLang/SARC_Sarcasm数据集因其庞大的规模和独特的标注方式，成为讽刺检测任务的经典资源。该数据集包含130万条讽刺性语句，远超以往任何相关数据集，且每条语句均由作者自行标注，确保了标注的准确性和一致性。研究者常利用此数据集训练和评估讽刺检测模型，尤其是在处理平衡和不平衡标签分布时，展现出显著的优势。

解决学术问题

CreativeLang/SARC_Sarcasm数据集有效解决了讽刺检测领域长期面临的标注数据稀缺问题。其庞大的数据规模和高质量的标注，为研究者提供了丰富的训练和测试资源，推动了讽刺检测模型的性能提升。此外，该数据集还为研究讽刺语言的多样性和复杂性提供了宝贵的语料，有助于深入理解讽刺在不同语境中的表现形式。

衍生相关工作

基于CreativeLang/SARC_Sarcasm数据集，研究者们开展了一系列相关工作，推动了讽刺检测技术的进步。例如，有研究提出了基于深度学习的讽刺检测模型，利用数据集中的丰富语料进行训练，显著提升了检测精度。此外，还有学者探讨了讽刺语言的跨文化差异，通过对比不同语言和文化背景下的讽刺表达，进一步丰富了该领域的理论研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

用于陆面模拟的中国土壤数据集（第二版）

本研究对中国范围内0-2米六个标准深度层（0-5、5-15、15-30、30-60、60-100和100-200厘米）的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面，世界土壤信息服务的1540个土壤剖面，第一次全国土壤普查的76个土壤剖面，以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色（包括蒙赛尔颜色和RGB两种形式）。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供，有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求，CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量，可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心收录

TEDS

TEDS（Tencent Chinese Corpus）是由腾讯公司发布的中文文本数据集，主要用于自然语言处理和文本分类任务。该数据集包含了大量的中文文本数据，涵盖了新闻、社交媒体、论坛等多种来源，适用于训练和评估中文语言模型和文本分类模型。

ai.tencent.com 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集，专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息，包括720个航班和5770趟列车，以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求，并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题，特别是在多兴趣点行程安排和用户偏好满足方面，为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录