sanzanalora/Ben-Sarc

Name: sanzanalora/Ben-Sarc
Creator: sanzanalora
Published: 2024-05-28 09:55:45
License: 暂无描述

Hugging Face2024-05-28 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/sanzanalora/Ben-Sarc

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布了一个名为`Ben-Sarc`的大规模自注释孟加拉语语料库，用于孟加拉语中的讽刺检测研究问题。该语料库包含25,636条评论，这些评论是从不同的公共Facebook页面手动收集的，并由外部评估者进行评估。数据集以.xlsx格式提供，包含文本ID、文本内容和极性标签。极性标签用于区分讽刺和非讽刺文本。

提供机构：

sanzanalora

原始信息汇总

数据集概述

数据集名称： Ben-Sarc

语言： 孟加拉语（Bengali）

任务类别： 文本分类

数据集大小： 10,000 < n < 100,000

标签： 讽刺、孟加拉语讽刺、孟加拉语讽刺检测

许可： Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)

数据集描述

Ben-Sarc 是一个大规模的自我标注孟加拉语讽刺检测语料库，包含25,636条评论，这些评论是从不同的公共Facebook页面手动收集，并由外部评估者进行评估。

数据集结构

数据实例

数据集以.xlsx格式存储，包含以下字段：

id: 文本ID，字符串类型。
Text: 文本内容，字符串类型。
Polarity: 文本极性，数值类型，其中 0 表示非讽刺文本，1 表示讽刺文本。

数据集使用

Ben-Sarc 语料库适用于低资源NLP应用。

数据集来源

仓库： https://github.com/sanzanalora/Ben-Sarc
论文： Ben-Sarc: A Self-Annotated Corpus for Sarcasm Detection from Bengali Social Media Comments and Its Baseline Evaluation

引用信息

若使用此数据集，请引用以下论文：

@article{Lora_Shahariar_Nazmin_Rahman_Rahman_Bhuiyan_Shah_2024, title={Ben-Sarc: A self-annotated corpus for sarcasm detection from Bengali social media comments and its baseline evaluation}, DOI={10.1017/nlp.2024.11}, journal={Natural Language Processing}, author={Lora, Sanzana Karim and Shahariar, G. M. and Nazmin, Tamanna and Rahman, Noor Nafeur and Rahman, Rafsan and Bhuiyan, Miyad and Shah, Faisal Muhammad}, year={2024}, pages={1–26}}

5,000+

优质数据集

54 个

任务类型

进入经典数据集