yavuzkomecoglu/interpress_news_category_tr
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/yavuzkomecoglu/interpress_news_category_tr
下载链接
链接失效反馈官方服务:
资源简介:
Interpress土耳其新闻分类数据集(270K)是一个包含273,601条新闻的土耳其新闻数据集,分为17个类别。该数据集由Interpress媒体监测公司从2010年至2017年的印刷媒体和新闻网站中收集整理。数据集的结构包括id、标题、内容、类别、类别代码和发布时间等字段,并分为训练集和测试集。数据集的创建过程涉及从印刷媒体和互联网新闻中下载数据,但未提及详细的注释过程或注释者信息。
Interpress土耳其新闻分类数据集(270K)是一个包含273,601条新闻的土耳其新闻数据集,分为17个类别。该数据集由Interpress媒体监测公司从2010年至2017年的印刷媒体和新闻网站中收集整理。数据集的结构包括id、标题、内容、类别、类别代码和发布时间等字段,并分为训练集和测试集。数据集的创建过程涉及从印刷媒体和互联网新闻中下载数据,但未提及详细的注释过程或注释者信息。
提供机构:
yavuzkomecoglu
原始信息汇总
数据集概述
数据集名称: Interpress Turkish News Category Dataset (270K)
数据集大小: 270,000条新闻数据
语言: 土耳其语
数据集类型: 单语种
许可信息: 未知
数据集来源: 原始数据,由Interpress媒体监控公司从2010年至2017年收集自印刷媒体和新闻网站
数据集任务: 文本分类
类别数量: 17个新闻类别
数据集结构
数据实例: 包含新闻的ID、标题、内容、类别、类别代码和发布时间
数据字段:
id: 新闻唯一标识,数据类型为int32title: 新闻标题,数据类型为stringcontent: 新闻内容,数据类型为stringcategory: 新闻类别,数据类型为class_label,包含17个类别名称categorycode: 新闻类别代码,数据类型为class_label,包含17个类别代码publishdatetime: 新闻发布时间,数据类型为string
数据分割: 数据集分为训练集和测试集,训练集包含218,880条数据,测试集包含54,721条数据
数据集创建
数据收集: 从印刷媒体和新闻网站下载超过270,000条新闻
数据预处理: 数据以原始形式提供,建议在使用前进行仔细的预处理,以处理可能的OCR错误和拼写错误
源语言生产者: 土耳其的印刷新闻来源和在线新闻网站
注释: 数据集不包含额外的注释



