Self-Annotated Reddit Corpus (SARC)

Name: Self-Annotated Reddit Corpus (SARC)
Creator: 普林斯顿大学计算机科学系
Published: 2018-03-23 06:23:10
License: 暂无描述

arXiv2018-03-23 更新2024-06-21 收录

下载链接：

http://nlp.cs.princeton.edu/SARC/

下载链接

链接失效反馈

官方服务：

资源简介：

Self-Annotated Reddit Corpus (SARC) 是由普林斯顿大学计算机科学系创建的一个大规模数据集，专注于讽刺语的研究和检测。数据集包含134万条讽刺语句，远超以往任何数据集，且包含大量非讽刺语句，适用于平衡和不平衡标签的学习环境。每个语句都是自我标注的，讽刺标签由作者而非独立注释者提供，并附带用户、主题和对话上下文信息。数据集的创建过程涉及从Reddit的评论结构中提取数据，并利用Reddit用户普遍使用的标准讽刺标注方法。SARC数据集主要用于讽刺检测系统的训练和评估，旨在解决自然语言处理中讽刺语识别的难题。

The Self-Annotated Reddit Corpus (SARC) is a large-scale dataset developed by the Department of Computer Science at Princeton University, dedicated to sarcasm research and detection. It contains 1.34 million sarcastic utterances, surpassing all prior datasets in scale, and also includes a substantial number of non-sarcastic utterances, making it applicable to both balanced and imbalanced label learning scenarios. Each utterance is self-annotated: the sarcasm label is provided by the original author rather than independent annotators, and is paired with user-related information, topic details and conversational context. The dataset was constructed by extracting data from Reddit's comment architecture, and leveraging the standard sarcasm annotation scheme widely adopted by Reddit users. The SARC dataset is primarily utilized for the training and evaluation of sarcasm detection systems, with the objective of addressing the challenge of sarcasm recognition in natural language processing (NLP).

提供机构：

普林斯顿大学计算机科学系

创建时间：

2017-04-19

搜集汇总

数据集介绍

构建方式

在讽刺检测研究领域，数据稀缺与标注一致性长期制约着模型性能的提升。SARC数据集的构建巧妙利用了Reddit社交平台的独特生态，通过用户自发采用的标准化标注符号“/s”来识别讽刺性评论。研究团队从2009年至2017年间的海量评论中，系统性地筛选了包含该标注的语句，并辅以多层过滤机制以降低噪声。具体而言，他们排除了URL链接、非ASCII字符以及讽刺评论的后续回复链，同时要求用户必须在同月或更早时间使用过该标注符号，以此确保标注意图的明确性。最终构建的原始语料包含533百万条评论，其中130万条被标识为讽刺语句，形成了规模空前且具有丰富上下文信息的语料库。

使用方法

该数据集为讽刺检测研究提供了多层次的实验框架。研究者可直接使用原始语料进行大规模机器学习模型的训练，尤其适合探索深度学习模型在自然语言理解任务中的应用。数据集作者已从中构建了标准化的评测基准，包括面向所有板块的平衡任务和专门针对政治板块的平衡与不平衡分类任务。每个评测任务均提供完整的对话线程作为上下文信息，支持模型进行语境感知的推理。基线方法表明，简单的词袋模型和句嵌入方法已能取得一定效果，但与人类表现仍有差距，这为后续研究指明了改进方向。数据集的丰富元数据还支持用户行为分析、社区语言风格研究等跨学科探索，为计算语言学与社会计算领域的交叉研究提供了宝贵资源。

背景与挑战

背景概述

讽刺检测作为自然语言理解的关键环节，在对话系统与文本挖掘中具有重要价值，然而其固有的隐晦性与低频特性使得数据获取与模型构建面临显著困难。由普林斯顿大学计算机科学系研究人员Mikhail Khodak、Nikunj Saunshi与Kiran Vodrahalli于2017年构建的自我标注Reddit语料库（SARC），首次通过社交媒体平台Reddit中用户自发使用的“/s”标签实现了大规模自我标注讽刺语句的采集。该语料库包含130万条讽刺语句与数亿条非讽刺语句，规模超越以往数据集的十倍，不仅提供了作者、话题与对话上下文等丰富元数据，更支持平衡与非平衡两种标签体系下的模型训练，为讽刺检测研究奠定了新的数据基础。

当前挑战

在领域问题层面，讽刺检测的核心挑战在于其高度依赖语境与背景知识，讽刺意图往往通过字面意义与实际情境的矛盾来体现，这使得传统文本分类模型难以捕捉其微妙语义。构建SARC数据集的过程中，研究团队面临双重挑战：首先，自我标注机制虽然实现了大规模数据采集，但“/s”标签的使用存在噪声，包括误将标签作为句子成分的假阳性案例，以及用户因认为讽刺意图明显而省略标注导致的假阴性问题；其次，Reddit对话的树状结构使得讽刺性回复链中的标注一致性难以保证，需要设计精细的过滤规则来排除噪声数据，同时还需处理不同子论坛中“/s”标签可能存在的多义性干扰。

常用场景

经典使用场景

在自然语言处理领域，讽刺检测作为情感分析与语义理解的关键分支，长期面临数据稀缺与标注困难的挑战。Self-Annotated Reddit Corpus (SARC) 以其海量自标注讽刺语句成为该领域的经典资源，广泛应用于训练和评估讽刺检测模型。研究者常利用其包含的130万条讽刺评论及数亿条非讽刺语句，构建平衡与非平衡标签体系下的分类任务，通过上下文对话信息与用户元数据，深入探索讽刺表达的语义模式与语境依赖特性。

解决学术问题

SARC 有效解决了讽刺检测研究中数据规模有限、标注一致性低以及语境信息缺失等核心问题。传统数据集多依赖人工标注或平衡采样，难以反映真实场景中讽刺表达的稀疏性与复杂性。该数据集通过 Reddit 平台标准化的“/s”自标注机制，提供了大规模、高质量且包含完整对话线程的语料，使得研究者能够开发更鲁棒的模型，以处理噪声数据、理解跨话题讽刺差异，并推动自然语言理解中隐含意图识别技术的发展。

实际应用

在实际应用层面，SARC 为社交媒体内容分析、在线对话系统及舆情监控提供了重要支撑。基于该数据集训练的讽刺检测模型可集成至智能客服系统，帮助识别用户反馈中的讽刺性批评，提升服务响应质量；在社交媒体平台中，此类技术能辅助内容审核，识别恶意或误导性讽刺言论，维护社区健康氛围。此外，其丰富的语境信息也为个性化推荐、用户行为分析等跨领域应用提供了语义理解基础。

数据集最近研究