five

yavuzkomecoglu/interpress_news_category_tr

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/yavuzkomecoglu/interpress_news_category_tr
下载链接
链接失效反馈
官方服务:
资源简介:
Interpress土耳其新闻分类数据集(270K)是一个包含273,601条新闻的土耳其新闻数据集,分为17个类别。该数据集由Interpress媒体监测公司从2010年至2017年的印刷媒体和新闻网站中收集整理。数据集的结构包括id、标题、内容、类别、类别代码和发布时间等字段,并分为训练集和测试集。数据集的创建过程涉及从印刷媒体和互联网新闻中下载数据,但未提及详细的注释过程或注释者信息。

Interpress土耳其新闻分类数据集(270K)是一个包含273,601条新闻的土耳其新闻数据集,分为17个类别。该数据集由Interpress媒体监测公司从2010年至2017年的印刷媒体和新闻网站中收集整理。数据集的结构包括id、标题、内容、类别、类别代码和发布时间等字段,并分为训练集和测试集。数据集的创建过程涉及从印刷媒体和互联网新闻中下载数据,但未提及详细的注释过程或注释者信息。
提供机构:
yavuzkomecoglu
原始信息汇总

数据集概述

数据集名称: Interpress Turkish News Category Dataset (270K)

数据集大小: 270,000条新闻数据

语言: 土耳其语

数据集类型: 单语种

许可信息: 未知

数据集来源: 原始数据,由Interpress媒体监控公司从2010年至2017年收集自印刷媒体和新闻网站

数据集任务: 文本分类

类别数量: 17个新闻类别

数据集结构

数据实例: 包含新闻的ID、标题、内容、类别、类别代码和发布时间

数据字段:

  • id: 新闻唯一标识,数据类型为int32
  • title: 新闻标题,数据类型为string
  • content: 新闻内容,数据类型为string
  • category: 新闻类别,数据类型为class_label,包含17个类别名称
  • categorycode: 新闻类别代码,数据类型为class_label,包含17个类别代码
  • publishdatetime: 新闻发布时间,数据类型为string

数据分割: 数据集分为训练集和测试集,训练集包含218,880条数据,测试集包含54,721条数据

数据集创建

数据收集: 从印刷媒体和新闻网站下载超过270,000条新闻

数据预处理: 数据以原始形式提供,建议在使用前进行仔细的预处理,以处理可能的OCR错误和拼写错误

源语言生产者: 土耳其的印刷新闻来源和在线新闻网站

注释: 数据集不包含额外的注释

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作