five

sanzanalora/Ben-Sarc

收藏
Hugging Face2024-05-28 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/sanzanalora/Ben-Sarc
下载链接
链接失效反馈
官方服务:
资源简介:
我们发布了一个名为`Ben-Sarc`的大规模自注释孟加拉语语料库,用于孟加拉语中的讽刺检测研究问题。该语料库包含25,636条评论,这些评论是从不同的公共Facebook页面手动收集的,并由外部评估者进行评估。数据集以.xlsx格式提供,包含文本ID、文本内容和极性标签。极性标签用于区分讽刺和非讽刺文本。

我们发布了一个名为`Ben-Sarc`的大规模自注释孟加拉语语料库,用于孟加拉语中的讽刺检测研究问题。该语料库包含25,636条评论,这些评论是从不同的公共Facebook页面手动收集的,并由外部评估者进行评估。数据集以.xlsx格式提供,包含文本ID、文本内容和极性标签。极性标签用于区分讽刺和非讽刺文本。
提供机构:
sanzanalora
原始信息汇总

数据集概述

数据集名称: Ben-Sarc

语言: 孟加拉语(Bengali)

任务类别: 文本分类

数据集大小: 10,000 < n < 100,000

标签: 讽刺、孟加拉语讽刺、孟加拉语讽刺检测

许可: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)

数据集描述

Ben-Sarc 是一个大规模的自我标注孟加拉语讽刺检测语料库,包含25,636条评论,这些评论是从不同的公共Facebook页面手动收集,并由外部评估者进行评估。

数据集结构

数据实例

数据集以.xlsx格式存储,包含以下字段:

  • id: 文本ID,字符串类型。
  • Text: 文本内容,字符串类型。
  • Polarity: 文本极性,数值类型,其中 0 表示非讽刺文本,1 表示讽刺文本。

数据集使用

Ben-Sarc 语料库适用于低资源NLP应用。

数据集来源

引用信息

若使用此数据集,请引用以下论文:

@article{Lora_Shahariar_Nazmin_Rahman_Rahman_Bhuiyan_Shah_2024, title={Ben-Sarc: A self-annotated corpus for sarcasm detection from Bengali social media comments and its baseline evaluation}, DOI={10.1017/nlp.2024.11}, journal={Natural Language Processing}, author={Lora, Sanzana Karim and Shahariar, G. M. and Nazmin, Tamanna and Rahman, Noor Nafeur and Rahman, Rafsan and Bhuiyan, Miyad and Shah, Faisal Muhammad}, year={2024}, pages={1–26}}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作