denizzhansahin/100K-TR-News
收藏Hugging Face2024-04-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/denizzhansahin/100K-TR-News
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自土耳其多个新闻网站的新闻标题、摘要、链接和内容。数据采集使用了Google Colab和Selenium工具。数据集的任务类别包括文本分类和文本生成,语言为土耳其语,规模在10K到100K之间。
该数据集包含来自土耳其多个新闻网站的新闻标题、摘要、链接和内容。数据采集使用了Google Colab和Selenium工具。数据集的任务类别包括文本分类和文本生成,语言为土耳其语,规模在10K到100K之间。
提供机构:
denizzhansahin
原始信息汇总
数据集概述
数据集名称
- 100K TR News Dataset
数据集内容
- 包含新闻标题、新闻摘要、新闻类别、新闻链接和新闻内容。
数据集来源
- 数据来源于土耳其的多个新闻网站,包括随机选取的新闻类别内容。
数据集特征
Unnamed: 0:索引,数据类型为int64。Baslik(标题):数据类型为string。Ozet(摘要):数据类型为string。Kategori(类别):数据类型为string。Link(链接):数据类型为string。Icerik(内容):数据类型为string。
数据集大小
- 数据集总大小:261,902,927字节。
- 下载大小:156,141,339字节。
数据集分割
- 训练集:包含79,669个样本,总字节数为183,330,207.98。
- 验证集:包含34,145个样本,总字节数为78,572,719.02。
数据集任务类别
- 文本分类
- 文本生成
数据集语言
- 土耳其语(tr)
数据集大小类别
- 10,000 < n < 100,000
数据集配置
- 默认配置(default)
- 训练数据路径:data/train-*
- 验证数据路径:data/validation-*



