five

KETI-AIR/kor_ag_news

收藏
Hugging Face2023-11-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KETI-AIR/kor_ag_news
下载链接
链接失效反馈
官方服务:
资源简介:
AG新闻数据集是一个包含超过100万篇新闻文章的集合,这些文章来自2000多个新闻源,由ComeToMyHead学术新闻搜索引擎在一年多的时间内收集。该数据集由Xiang Zhang从原始数据集中构建,并用于文本分类基准测试。数据集的特征包括文本、标签和用户数据索引。数据集分为训练集和测试集,分别包含120,000和7,600个样本。
提供机构:
KETI-AIR
原始信息汇总

AGs News Corpus 数据集概述

基本信息

  • 语言: 韩语 (ko)
  • 大小类别: 100K<n<1M
  • 任务类别: 文本分类 (text-classification)
  • 任务ID: 主题分类 (topic-classification)
  • Papers with Code ID: ag-news
  • 美观名称: AG’s News Corpus
  • 许可证: 未知

数据集详情

  • 特征:
    • text: 数据类型为字符串 (string)
    • label: 数据类型为类别标签 (class_label),标签名称为:
      • 0: World
      • 1: Sports
      • 2: Business
      • 3: Sci/Tech
    • data_index_by_user: 数据类型为整数 (int32)
  • 分割:
    • train: 字节数为 35075728,样本数为 120000
    • test: 字节数为 2195191,样本数为 7600
  • 下载大小: 22724153 字节
  • 数据集大小: 37270919 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作