five

FASSILA

收藏
arXiv2024-11-07 更新2024-11-11 收录
下载链接:
https://github.com/amincoding/FASSILA
下载链接
链接失效反馈
官方服务:
资源简介:
FASSILA数据集是由阿尔及利亚方言(AD)的专家创建的,专门用于假新闻检测和情感分析。该数据集包含10,087个句子,涵盖超过19,497个独特的阿尔及利亚方言词汇,涉及七个不同的领域。数据集的创建过程包括从社交媒体平台(如Facebook和YouTube)收集数据,进行数据清洗和标注。FASSILA数据集的应用领域主要集中在阿尔及利亚方言的计算语言学研究,旨在解决假新闻检测和情感分析的问题,特别是在低资源语言环境中。

The FASSILA dataset was developed by experts in Algerian Dialect (AD), specifically tailored for fake news detection and sentiment analysis. It contains 10,087 sentences, covering over 19,497 unique Algerian Dialect vocabulary terms and spanning seven distinct domains. The dataset construction process involves collecting data from social media platforms such as Facebook and YouTube, followed by data cleaning and annotation. The primary application scenarios of the FASSILA dataset focus on computational linguistics research for Algerian Dialect, aiming to address the challenges of fake news detection and sentiment analysis, particularly in low-resource language environments.
提供机构:
GESIS – 莱布尼茨社会科学研究所
创建时间:
2024-11-07
原始信息汇总

FASSILA 数据集概述

数据集描述

FASSILA 是一个用于阿尔及利亚方言的假新闻和情感分析语料库,包含了从数据分析到训练的所有代码。

数据集内容

  • 数据分析脚本:用于对阿拉伯语文本数据进行分析,包括计算现代标准阿拉伯语(MSA)单词、确定词汇量和计算拉丁字符。

使用说明

  1. 环境设置

    • 确保系统已安装 Python。
    • 使用 pip 安装所需的库: bash pip install pandas
  2. 克隆仓库: bash git clone https://github.com/your_username/arabic-language-analysis.git cd arabic-language-analysis

  3. 配置文件路径

    • 在脚本中替换数据集文件路径: python path = "path/to/your/msa_dataset.csv" path2 = "path/to/your/latin_dataset.csv"
  4. 运行代码: bash python analyze_arabic.py

引用

bibtex @article{abdedaiem2023fake, title={Fake News Detection in Low Resource Languages using SetFit Framework}, author={Abdedaiem, Amin and Dahou, Abdelhalim Hafedh and Cheragui, Mohamed Amine}, journal={Inteligencia Artificial}, volume={26}, number={72}, pages={178--201}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
FASSILA数据集的构建过程严谨而系统,涵盖了从数据收集、清洗到标注的多个环节。首先,数据来源于阿尔及利亚常用的社交媒体平台,如Facebook和YouTube,以及现有的MSA数据集,包括Khouja语料库和ANT语料库。随后,通过YouTube API和Beautiful-soup库进行数据抓取,并剔除非阿拉伯字母、电子邮件和代码转换词。接着,使用label-studio工具对未标注数据进行标注,最终形成结构化的数据集,包括来源、类别、文本和标签。
使用方法
FASSILA数据集主要用于阿尔及利亚方言的假新闻检测和情感分析。研究者可以利用该数据集训练和评估基于BERT的模型和机器学习模型,如支持向量机(SVM)、逻辑回归(LR)和决策树(DT)。数据集的结构化格式和详细的标注信息使其适用于多种自然语言处理任务,为阿尔及利亚方言的计算语言学研究提供了宝贵的资源。
背景与挑战
背景概述
在自然语言处理(NLP)领域,特别是对于低资源语言如阿尔及利亚方言(AD),由于缺乏标注语料库,其有效处理面临巨大挑战。FASSILA数据集由Amin ABDEDAIEM、Abdelhalim Hafedh Dahou、Mohamed Amine Cheragui和Brigitte Mathiak等人于2024年创建,旨在解决AD在假新闻检测和情感分析方面的资源匮乏问题。该数据集包含10,087个句子,涵盖超过19,497个AD中的独特词汇,并涉及七个不同领域。FASSILA的创建不仅填补了AD在计算语言学中的空白,还为基于机器学习和深度学习的模型训练和评估提供了宝贵资源,推动了该语言在NLP应用中的研究与应用。
当前挑战
FASSILA数据集在构建过程中面临多重挑战。首先,AD作为一种低资源语言,缺乏标注语料库,这使得数据收集和标注过程异常复杂和耗时。其次,数据增强技术如改写和翻译在保持AD特有语言特征方面存在困难,尤其是GPT-4在改写过程中容易偏向摩洛哥方言而非阿尔及利亚方言。此外,标注过程中的逻辑一致性和时间一致性要求高,确保标注的准确性和可靠性。这些挑战不仅影响了数据集的构建质量,也对其在假新闻检测和情感分析任务中的应用效果提出了考验。
常用场景
经典使用场景
在自然语言处理(NLP)领域,FASSILA数据集的经典应用场景主要集中在阿尔及利亚方言(AD)的假新闻检测和情感分析上。该数据集通过提供10,087个句子,涵盖超过19,497个独特的阿尔及利亚方言词汇,为研究人员提供了一个丰富的资源库。这些数据不仅支持机器学习模型的训练和评估,还为探索阿尔及利亚方言在社交媒体中的应用提供了基础。通过使用BERT等基于Transformer的模型,研究人员能够更准确地识别和分类假新闻,同时进行情感分析,从而在低资源语言处理中取得了显著进展。
解决学术问题
FASSILA数据集在学术研究中解决了阿尔及利亚方言(AD)在假新闻检测和情感分析领域的关键问题。由于AD缺乏标注语料库,传统的机器学习方法难以有效处理该语言。FASSILA通过提供高质量的标注数据,填补了这一空白,使得研究人员能够开发和验证针对AD的假新闻检测和情感分析模型。这不仅推动了低资源语言处理技术的发展,还为其他类似语言的研究提供了参考,具有重要的学术价值和影响力。
实际应用
在实际应用中,FASSILA数据集被广泛用于社交媒体监控、舆情分析和新闻真实性验证等领域。例如,政府和非政府组织可以利用该数据集开发工具,实时监测社交媒体上的假新闻传播,及时采取措施防止谣言扩散。此外,企业可以通过情感分析了解消费者对产品或服务的反馈,优化市场策略。FASSILA的实际应用不仅提升了信息处理的准确性和效率,还为社会治理和商业决策提供了有力支持。
数据集最近研究
最新研究方向
在低资源语言领域,阿尔及利亚方言(AD)由于缺乏标注语料库,面临着处理上的挑战,尤其是在依赖语料库进行训练和评估的机器学习应用中。FASSILA数据集的最新研究方向集中在为AD开发专门用于假新闻检测和情感分析的语料库。该研究不仅详细描述了数据收集、清洗和标注的过程,还展示了基于BERT模型和机器学习模型的分类实验结果,显示出有前景的结果,并指出了进一步研究的方向。此外,该数据集的构建旨在解决AD语言资源的匮乏问题,通过提供一个包含10,087个句子和超过19,497个独特词汇的语料库,推动AD在计算语言学中的应用和发展。
相关研究论文
  • 1
    FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment AnalysisGESIS – 莱布尼茨社会科学研究所 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作