AURA-Classification
收藏Hugging Face2024-12-14 更新2024-12-15 收录
下载链接:
https://huggingface.co/datasets/irfan-ahmad/AURA-Classification
下载链接
链接失效反馈官方服务:
资源简介:
AURA(阿拉伯语应用用户评论)分类数据集是一个包含2900条阿拉伯语应用评论的集合,这些评论来自各种移动应用程序。该数据集主要设计用于文本分类任务。数据集包含以下字段:review(评论文本)、appName(应用名称)、platform(平台,iOS或Android)和label(分类标签,分为bug_report、improvement_request、rating和others四类)。数据集适用于阿拉伯语的多语言NLP研究和应用评论分类模型的微调。
创建时间:
2024-12-13
原始信息汇总
AURA-Classification 数据集概述
数据集描述
AURA (App User Review in Arabic) Classification 数据集是一个包含 2,900 条阿拉伯语应用评论的集合,这些评论来自各种移动应用程序。该数据集主要用于文本分类任务。
特征
数据集包含以下字段:
- review: 评论的文本内容,使用阿拉伯语。
- appName: 被评论的应用程序名称。
- platform: 评论发布的平台(iOS 或 Android)。
- label: 评论的分类标签,分为以下几类:
bug_report: 评论指出应用程序中的错误或问题。improvement_request: 评论建议改进或新增功能。rating: 评论表达一般的评分或意见。others: 其他或未分类的评论。
数据集统计
- 总评论数: 2,900
- 平台: iOS, Android
- 应用程序: 来自不同类别的多个应用程序。
- 标签分布: 数据集被标记为四个类别,适用于多类分类任务。
示例条目
json { "review": "يبيله تصليحات كثير", "appName": "OSN - Streaming App", "platform": "ios", "label": "bug_report" }
使用场景
该数据集适用于以下场景:
- 文本分类(例如,主题分类、问题识别)。
- 专注于阿拉伯语的多语言自然语言处理研究。
- 微调模型以进行应用评论分类。
引用
如果您使用此数据集,请引用如下:
@article{Aljeezani2025arabic, title={Arabic App Reviews: Analysis and Classification}, author={Aljeezani, Othman and Alomari, Dorieh and Ahmad, Irfan}, journal={ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP)}, pages={1--28}, year={to-appear}, publisher={ACM New York, NY, USA}, }
许可证
该数据集在 MIT License 下共享。请在使用此数据集时确保适当的归属。
搜集汇总
数据集介绍

构建方式
AURA-Classification数据集是通过从多个移动应用程序中收集2,900条阿拉伯语应用评论构建而成。该数据集的构建旨在支持文本分类任务,涵盖了来自iOS和Android平台的多样化应用评论。每条评论均被标注为四个类别之一:bug_report、improvement_request、rating和others,以支持多类别分类任务。
特点
AURA-Classification数据集的主要特点在于其专注于阿拉伯语应用评论的分类,涵盖了多个应用和平台,提供了丰富的语料资源。此外,数据集的标注精细,能够有效支持多类别分类任务,特别适用于阿拉伯语自然语言处理研究。
使用方法
AURA-Classification数据集适用于多种自然语言处理任务,包括但不限于文本分类、主题分类和问题识别。研究者可以利用该数据集进行模型微调,以提升阿拉伯语应用评论的分类性能。使用时,建议遵循MIT许可证,并引用相关文献以确保学术诚信。
背景与挑战
背景概述
AURA-Classification数据集,由Aljeezani、Alomari和Ahmad等研究人员于近期创建,专注于阿拉伯语应用评论的文本分类任务。该数据集汇集了来自多个移动应用的2,900条阿拉伯语评论,涵盖iOS和Android平台,旨在为自然语言处理领域的研究提供丰富的资源。其核心研究问题在于如何有效分类和分析阿拉伯语应用评论,以识别用户反馈中的关键信息,如错误报告、改进建议和一般评价等。该数据集的发布不仅丰富了阿拉伯语自然语言处理的研究资源,还为多语言NLP研究提供了新的视角,特别是在低资源语言处理方面具有重要意义。
当前挑战
AURA-Classification数据集在构建过程中面临多项挑战。首先,阿拉伯语作为一种形态丰富的语言,其文本处理和分类任务相较于其他语言更为复杂。其次,数据集中的评论来自多个应用和平台,评论内容的多样性和噪声增加了分类的难度。此外,确保标签的准确性和一致性也是一大挑战,尤其是在处理多类别分类任务时。最后,数据集的规模相对较小,如何在有限的样本中训练出高效的分类模型,同时避免过拟合,是研究者需要解决的关键问题。
常用场景
经典使用场景
AURA-Classification数据集在自然语言处理领域中,尤其是阿拉伯语文本分类任务中,展现了其经典应用价值。该数据集通过收集来自不同移动应用平台的2,900条阿拉伯语应用评论,为研究者提供了丰富的语料资源。其核心应用场景包括对应用评论进行主题分类,如识别用户反馈中的问题报告、改进建议、评分表达等。此外,该数据集还可用于多语言NLP研究,特别是针对阿拉伯语的语言模型微调,从而提升模型在阿拉伯语环境下的表现。
解决学术问题
AURA-Classification数据集在解决阿拉伯语应用评论的分类问题上具有显著的学术意义。通过提供结构化的评论数据及其对应的分类标签,该数据集为研究者提供了一个标准化的基准,用于评估和改进文本分类算法。这不仅推动了阿拉伯语自然语言处理技术的发展,还为多语言NLP研究提供了宝贵的资源。此外,该数据集的多样性标签分布有助于解决多分类任务中的类别不平衡问题,提升了模型的泛化能力。
衍生相关工作
AURA-Classification数据集的发布激发了众多相关研究工作。例如,基于该数据集的文本分类模型被广泛应用于阿拉伯语应用评论的自动化分析,推动了阿拉伯语NLP技术的进步。此外,该数据集还启发了其他语言的应用评论数据集的构建,促进了多语言NLP研究的交叉融合。研究者们还利用该数据集进行跨平台比较研究,探讨不同平台(如iOS和Android)上用户反馈的差异性,为移动应用的跨平台优化提供了理论支持。
以上内容由遇见数据集搜集并总结生成



