rasyosef/amharic-news-category-classification
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/rasyosef/amharic-news-category-classification
下载链接
链接失效反馈官方服务:
资源简介:
Amharic News Category Classification数据集是一个阿姆哈拉语新闻文本数据集,包含标题、类别、日期、浏览量、文章内容、链接、文章长度和标签等特征。该数据集可用于训练或微调模型,主要用于文本分类和摘要生成任务。数据集中的新闻文章被分类为六种类别:本地新闻、娱乐、体育、商业、国际新闻和政治。与现有版本相比,该数据集保留了文章中的标点符号,因此更适合用于微调Transformer模型。
Amharic News Category Classification数据集是一个阿姆哈拉语新闻文本数据集,包含标题、类别、日期、浏览量、文章内容、链接、文章长度和标签等特征。该数据集可用于训练或微调模型,主要用于文本分类和摘要生成任务。数据集中的新闻文章被分类为六种类别:本地新闻、娱乐、体育、商业、国际新闻和政治。与现有版本相比,该数据集保留了文章中的标点符号,因此更适合用于微调Transformer模型。
提供机构:
rasyosef
原始信息汇总
数据集概述
数据集信息
-
特征(Features):
- headline: 字符串
- category: 字符串
- date: 字符串
- views: 字符串
- article: 字符串
- link: 字符串
- word_len: 整数
- label: 分类标签,包括以下类别:
- ሀገር አቀፍ ዜና (Local News)
- መዝናኛ (Entertainment)
- ስፖርት (Sports)
- ቢዝነስ (Business)
- ዓለም አቀፍ ዜና (International News)
- ፖለቲካ (Politics)
-
分割(Splits):
- train: 49971个样本,数据大小191486316字节
-
下载大小(Download Size): 86414046字节
-
数据集大小(Dataset Size): 191486316字节
许可(License)
- cc-by-4.0
任务类别(Task Categories)
- 文本分类
- 摘要生成
语言(Language)
- 阿姆哈拉语(Amharic)
大小类别(Size Categories)
- 10K<n<100K
微调模型(Finetuned Models)
- 模型及性能:
- xlm-roberta-base (279M参数): 准确率0.9,精确度0.88,召回率0.88,F1分数0.88
- bert-small-amharic (25.7M参数): 准确率0.89,精确度0.86,召回率0.87,F1分数0.86
- bert-mini-amharic (9.67M参数): 准确率0.87,精确度0.83,召回率0.83,F1分数0.83



