five

denizzhansahin/100K-TR-News

收藏
Hugging Face2024-04-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/denizzhansahin/100K-TR-News
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自土耳其多个新闻网站的新闻标题、摘要、链接和内容。数据采集使用了Google Colab和Selenium工具。数据集的任务类别包括文本分类和文本生成,语言为土耳其语,规模在10K到100K之间。

该数据集包含来自土耳其多个新闻网站的新闻标题、摘要、链接和内容。数据采集使用了Google Colab和Selenium工具。数据集的任务类别包括文本分类和文本生成,语言为土耳其语,规模在10K到100K之间。
提供机构:
denizzhansahin
原始信息汇总

数据集概述

数据集名称

  • 100K TR News Dataset

数据集内容

  • 包含新闻标题、新闻摘要、新闻类别、新闻链接和新闻内容。

数据集来源

  • 数据来源于土耳其的多个新闻网站,包括随机选取的新闻类别内容。

数据集特征

  • Unnamed: 0:索引,数据类型为int64。
  • Baslik(标题):数据类型为string。
  • Ozet(摘要):数据类型为string。
  • Kategori(类别):数据类型为string。
  • Link(链接):数据类型为string。
  • Icerik(内容):数据类型为string。

数据集大小

  • 数据集总大小:261,902,927字节。
  • 下载大小:156,141,339字节。

数据集分割

  • 训练集:包含79,669个样本,总字节数为183,330,207.98。
  • 验证集:包含34,145个样本,总字节数为78,572,719.02。

数据集任务类别

  • 文本分类
  • 文本生成

数据集语言

  • 土耳其语(tr)

数据集大小类别

  • 10,000 < n < 100,000

数据集配置

  • 默认配置(default)
    • 训练数据路径:data/train-*
    • 验证数据路径:data/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作