SpellOnYou/kor_sarcasm
收藏Hugging Face2024-08-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/SpellOnYou/kor_sarcasm
下载链接
链接失效反馈官方服务:
资源简介:
韩语讽刺检测数据集(Korean Sarcasm Detection)旨在检测文本中的讽刺内容,讽刺可以显著改变句子的原意。该数据集包含了从Twitter收集的9319条推文,每条推文都被标记为讽刺或非讽刺。这些推文是通过查询特定关键词(如역설, 아무말, 운수좋은날, 笑, 뭐래 아닙니다, 그럴리없다, 어그로, irony sarcastic, sarcasm)收集的。数据集经过预处理,移除了关键词标签、URL和用户提及,以保持匿名性。数据集分为训练集和测试集,分别包含9000条和301条推文。该数据集可用于训练模型以检测韩语中的讽刺推文。
提供机构:
SpellOnYou
原始信息汇总
数据集概述
数据集描述
- 数据集名称: Korean Sarcasm Detection
- 数据集创建者: 专家生成
- 语言: 韩语
- 许可证: MIT
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 源数据: 原始数据
- 任务类别: 文本分类
数据集结构
数据实例
一个数据实例包含一条韩语推文和一个标签,指示该推文是否为讽刺。1表示讽刺,0表示非讽刺。
json { "tokens": "[ 수도권 노선 아이템 ] 17 . 신분당선의 #딸기 : 그의 이미지 컬러 혹은 머리 색에서 유래한 아이템이다 . #메트로라이프", "label": 0 }
数据字段
tokens: 包含推文的文本label: 确定文本是否为讽刺(1: 讽刺,0: 非讽刺)
数据分割
数据分为训练集和测试集,训练集包含9000条推文,测试集包含301条推文。
数据集创建
源数据
数据集通过从Twitter收集HTML数据创建。使用包含讽刺及其变体的标签查询返回推文,并预处理以删除关键字标签、URL和用户提及以保持匿名性。
注释
推文被标记为1表示讽刺,0表示非讽刺。
附加信息
数据集许可证
该数据集在MIT许可证下发布。
引用信息
bibtex @misc{kim2019kocasm, author = {Kim, Jiwon and Cho, Won Ik}, title = {Kocasm: Korean Automatic Sarcasm Detection}, year = {2019}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/SpellOnYou/korean-sarcasm}} }



