savasy/ttc4900
收藏数据集概述
数据集基本信息
- 数据集名称: TTC4900 - A Benchmark Data for Turkish Text Categorization
- 语言: 土耳其语
- 许可: 未知
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 源数据: 原始数据
- 任务类别: 文本分类
数据集结构
数据实例
数据集包含7个不同的新闻类别。以下是一个数据实例: json { "category": 0, # 政治/siyaset "text": "paris teki infaz imralı ile başlayan sürece bir darbe mi elif_çakır ın sunduğu söz_bitmeden in bugünkü konuğu gazeteci melih altınok oldu programdan satıbaşları imralı ile görüşmeler hangi aşamada bundan sonra ne olacak hangi kesimler sürece engel oluyor psikolojik mayınlar neler türk solu bu dönemde evrensel sorumluluğunu yerine getirebiliyor mu elif_çakır sordu melih altınok söz_bitmeden de yanıtladı elif_çakır pkk nın silahsızlandırılmasına yönelik olarak öcalan ile görüşme sonrası 3 kadının infazı enteresan çünkü kurucu isimlerden birisi sen nasıl okudun bu infazı melih altınok herkesin ciddi anlamda şüpheleri var şu an yürüttüğümüz herşey bir delile dayanmadığı için komple teorisinden ibaret kalacak ama şöyle bir durum var imralı görüşmelerin ilk defa bir siyasi iktidar tarafından açıkça söylendiği bir dönem ardından geliyor bu sürecin gerçekleşmemesini isteyen kesimler yaptırmıştır dedi" }
数据字段
- category: 指示新闻文本所属的类别,如 "politics", "world", "economy", "culture", "health", "sports", "technology"。
- text: 包含新闻文本。
数据分割
数据集未分为训练集和测试集。
数据集创建
源数据
数据经过预处理以用于文本分类,找到了搭配词,修正了字符集等。
源语言生产者
土耳其在线新闻网站。
数据集特征
- 类别:
- 0: siyaset
- 1: dunya
- 2: ekonomi
- 3: kultur
- 4: saglik
- 5: spor
- 6: teknoloji
- 文本: 字符串类型
数据集配置
- 配置名称: ttc4900
- 分割:
- 训练集: 4900个样本,10640831字节
数据集大小
- 下载大小: 10627541字节
- 数据集大小: 10640831字节



