sanzanalora/Ben-Sarc
收藏数据集概述
数据集名称: Ben-Sarc
语言: 孟加拉语(Bengali)
任务类别: 文本分类
数据集大小: 10,000 < n < 100,000
标签: 讽刺、孟加拉语讽刺、孟加拉语讽刺检测
许可: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
数据集描述
Ben-Sarc 是一个大规模的自我标注孟加拉语讽刺检测语料库,包含25,636条评论,这些评论是从不同的公共Facebook页面手动收集,并由外部评估者进行评估。
数据集结构
数据实例
数据集以.xlsx格式存储,包含以下字段:
id: 文本ID,字符串类型。Text: 文本内容,字符串类型。Polarity: 文本极性,数值类型,其中0表示非讽刺文本,1表示讽刺文本。
数据集使用
Ben-Sarc 语料库适用于低资源NLP应用。
数据集来源
- 仓库: https://github.com/sanzanalora/Ben-Sarc
- 论文: Ben-Sarc: A Self-Annotated Corpus for Sarcasm Detection from Bengali Social Media Comments and Its Baseline Evaluation
引用信息
若使用此数据集,请引用以下论文:
@article{Lora_Shahariar_Nazmin_Rahman_Rahman_Bhuiyan_Shah_2024, title={Ben-Sarc: A self-annotated corpus for sarcasm detection from Bengali social media comments and its baseline evaluation}, DOI={10.1017/nlp.2024.11}, journal={Natural Language Processing}, author={Lora, Sanzana Karim and Shahariar, G. M. and Nazmin, Tamanna and Rahman, Noor Nafeur and Rahman, Rafsan and Bhuiyan, Miyad and Shah, Faisal Muhammad}, year={2024}, pages={1–26}}



