five

arbml/Twifil

收藏
Hugging Face2024-03-23 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/arbml/Twifil
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个关于阿尔及利亚方言的情感分析资源,包含了9000条推文的情感标注和5000条推文的情感标注,以及作者的人口统计信息(年龄和性别)。这些数据是通过一个名为TWIFIL的协作注释平台进行众包标注的,旨在为北非方言,特别是阿尔及利亚方言,提供情感和意见分析的资源。

该数据集是一个关于阿尔及利亚方言的情感分析资源,包含了9000条推文的情感标注和5000条推文的情感标注,以及作者的人口统计信息(年龄和性别)。这些数据是通过一个名为TWIFIL的协作注释平台进行众包标注的,旨在为北非方言,特别是阿尔及利亚方言,提供情感和意见分析的资源。
提供机构:
arbml
原始信息汇总

数据集概述

数据集描述

  • 名称: 未提供具体名称
  • 摘要: 未提供具体摘要
  • 支持的任务和排行榜: 未提供具体信息
  • 语言: 未提供具体信息

数据集结构

  • 数据实例: 未提供具体信息
  • 数据字段: 未提供具体信息
  • 数据分割: 未提供具体信息

数据集创建

  • 精选理由: 未提供具体信息
  • 源数据:
    • 初始数据收集和规范化: 未提供具体信息
    • 源语言生产者: 未提供具体信息
  • 注释:
    • 注释过程: 未提供具体信息
    • 注释者: 未提供具体信息
  • 个人和敏感信息: 未提供具体信息

使用数据的考虑

  • 数据集的社会影响: 未提供具体信息
  • 偏见的讨论: 未提供具体信息
  • 其他已知限制: 未提供具体信息

附加信息

  • 数据集管理者: 未提供具体信息

  • 许可信息: 未提供具体信息

  • 引用信息:

    @inproceedings{moudjari-etal-2020-algerian, title = "An {A}lgerian Corpus and an Annotation Platform for Opinion and Emotion Analysis", author = "Moudjari, Leila and Akli-Astouati, Karima and Benamara, Farah", editor = "Calzolari, Nicoletta and B{e}chet, Fr{e}d{e}ric and Blache, Philippe and Choukri, Khalid and Cieri, Christopher and Declerck, Thierry and Goggi, Sara and Isahara, Hitoshi and Maegaard, Bente and Mariani, Joseph and Mazo, H{e}l{e}ne and Moreno, Asuncion and Odijk, Jan and Piperidis, Stelios", booktitle = "Proceedings of the Twelfth Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.151", pages = "1202--1210", abstract = "In this paper, we address the lack of resources for opinion and emotion analysis related to North African dialects, targeting Algerian dialect. We present TWIFIL (TWItter proFILing) a collaborative annotation platform for crowdsourcing annotation of tweets at different levels of granularity. The plateform allowed the creation of the largest Algerian dialect dataset annotated for both sentiment (9,000 tweets), emotion (about 5,000 tweets) and extra-linguistic information including author profiling (age and gender). The annotation resulted also in the creation of the largest Algerien dialect subjectivity lexicon of about 9,000 entries which can constitute a valuable resources for the development of future NLP applications for Algerian dialect. To test the validity of the dataset, a set of deep learning experiments were conducted to classify a given tweet as positive, negative or neutral. We discuss our results and provide an error analysis to better identify classification errors.", language = "English", ISBN = "979-10-95546-34-4", }

  • 贡献者: 感谢 @github-username 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作