five

News Headlines Dataset For Sarcasm Detection新闻标题数据集用于讽刺检测

收藏
阿里云天池2026-06-04 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/93771
下载链接
链接失效反馈
官方服务:
资源简介:
以前在Sarcasm Detection中进行的研究大多使用Twitter数据集,该数据集是基于基于标签的监督收集的,但这些数据集在标签和语言方面都很吵。此外,许多推文都是对其他推文的答复,而在其中检测讽刺需要上下文推文的可用性。

Most existing studies on sarcasm detection have predominantly utilized Twitter datasets, which were collected through label-based supervision. However, these datasets exhibit noise in both labeling and linguistic dimensions. Furthermore, a considerable portion of tweets are replies to other tweets, and detecting sarcasm in these replies necessitates the availability of their contextual tweets.
提供机构:
阿里云天池
创建时间:
2021-03-10
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个专门用于讽刺检测的高质量新闻标题数据集,旨在替代噪声较大的Twitter数据集。其优势在于新闻标题由专业人员以正式方式撰写,减少了拼写错误和非正式用法,从而降低了数据稀疏性并便于使用预训练嵌入;同时,数据来源包括讽刺新闻网站TheOnion,提供了更准确的标签。数据集包含讽刺标签、新闻标题和文章链接三个属性,适用于自然语言处理中的讽刺识别任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务