five

SpellOnYou/kor_sarcasm

收藏
Hugging Face2024-08-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/SpellOnYou/kor_sarcasm
下载链接
链接失效反馈
官方服务:
资源简介:
韩语讽刺检测数据集(Korean Sarcasm Detection)旨在检测文本中的讽刺内容,讽刺可以显著改变句子的原意。该数据集包含了从Twitter收集的9319条推文,每条推文都被标记为讽刺或非讽刺。这些推文是通过查询特定关键词(如역설, 아무말, 운수좋은날, 笑, 뭐래 아닙니다, 그럴리없다, 어그로, irony sarcastic, sarcasm)收集的。数据集经过预处理,移除了关键词标签、URL和用户提及,以保持匿名性。数据集分为训练集和测试集,分别包含9000条和301条推文。该数据集可用于训练模型以检测韩语中的讽刺推文。
提供机构:
SpellOnYou
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: Korean Sarcasm Detection
  • 数据集创建者: 专家生成
  • 语言: 韩语
  • 许可证: MIT
  • 多语言性: 单语种
  • 数据集大小: 1K<n<10K
  • 源数据: 原始数据
  • 任务类别: 文本分类

数据集结构

数据实例

一个数据实例包含一条韩语推文和一个标签,指示该推文是否为讽刺。1表示讽刺,0表示非讽刺。

json { "tokens": "[ 수도권 노선 아이템 ] 17 . 신분당선의 #딸기 : 그의 이미지 컬러 혹은 머리 색에서 유래한 아이템이다 . #메트로라이프", "label": 0 }

数据字段

  • tokens: 包含推文的文本
  • label: 确定文本是否为讽刺(1: 讽刺, 0: 非讽刺)

数据分割

数据分为训练集和测试集,训练集包含9000条推文,测试集包含301条推文。

数据集创建

源数据

数据集通过从Twitter收集HTML数据创建。使用包含讽刺及其变体的标签查询返回推文,并预处理以删除关键字标签、URL和用户提及以保持匿名性。

注释

推文被标记为1表示讽刺,0表示非讽刺。

附加信息

数据集许可证

该数据集在MIT许可证下发布。

引用信息

bibtex @misc{kim2019kocasm, author = {Kim, Jiwon and Cho, Won Ik}, title = {Kocasm: Korean Automatic Sarcasm Detection}, year = {2019}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/SpellOnYou/korean-sarcasm}} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作