five

rasyosef/amharic-news-category-classification

收藏
Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/rasyosef/amharic-news-category-classification
下载链接
链接失效反馈
官方服务:
资源简介:
Amharic News Category Classification数据集是一个阿姆哈拉语新闻文本数据集,包含标题、类别、日期、浏览量、文章内容、链接、文章长度和标签等特征。该数据集可用于训练或微调模型,主要用于文本分类和摘要生成任务。数据集中的新闻文章被分类为六种类别:本地新闻、娱乐、体育、商业、国际新闻和政治。与现有版本相比,该数据集保留了文章中的标点符号,因此更适合用于微调Transformer模型。

Amharic News Category Classification数据集是一个阿姆哈拉语新闻文本数据集,包含标题、类别、日期、浏览量、文章内容、链接、文章长度和标签等特征。该数据集可用于训练或微调模型,主要用于文本分类和摘要生成任务。数据集中的新闻文章被分类为六种类别:本地新闻、娱乐、体育、商业、国际新闻和政治。与现有版本相比,该数据集保留了文章中的标点符号,因此更适合用于微调Transformer模型。
提供机构:
rasyosef
原始信息汇总

数据集概述

数据集信息

  • 特征(Features):

    • headline: 字符串
    • category: 字符串
    • date: 字符串
    • views: 字符串
    • article: 字符串
    • link: 字符串
    • word_len: 整数
    • label: 分类标签,包括以下类别:
      • ሀገር አቀፍ ዜና (Local News)
      • መዝናኛ (Entertainment)
      • ስፖርት (Sports)
      • ቢዝነስ (Business)
      • ዓለም አቀፍ ዜና (International News)
      • ፖለቲካ (Politics)
  • 分割(Splits):

    • train: 49971个样本,数据大小191486316字节
  • 下载大小(Download Size): 86414046字节

  • 数据集大小(Dataset Size): 191486316字节

许可(License)

  • cc-by-4.0

任务类别(Task Categories)

  • 文本分类
  • 摘要生成

语言(Language)

  • 阿姆哈拉语(Amharic)

大小类别(Size Categories)

  • 10K<n<100K

微调模型(Finetuned Models)

  • 模型及性能:
    • xlm-roberta-base (279M参数): 准确率0.9,精确度0.88,召回率0.88,F1分数0.88
    • bert-small-amharic (25.7M参数): 准确率0.89,精确度0.86,召回率0.87,F1分数0.86
    • bert-mini-amharic (9.67M参数): 准确率0.87,精确度0.83,召回率0.83,F1分数0.83
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作