bysismo/3Milyon_Zengin_Sorular_Cevaplar
收藏Hugging Face2026-03-24 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/bysismo/3Milyon_Zengin_Sorular_Cevaplar
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- tr
tags:
- agent
- legal
- chemistry
- biology
- synthetic
pretty_name: bysismo_turk
size_categories:
- 100K<n<1M
---
🇹🇷 3 Milyon Zengin Sorular Cevaplar / Morphology bombası
Turkish Morphology-Based Instruction & QA Dataset
İçerik Sahipleri: Hakan Ttkr & Bysismo
Toplam Kayıt: ~2.982.000+
Format: JSONL
Dil: Türkçe
Versiyon Kaynağı: zurriyet_v6.0_dna
Dikkat!!!!!:
Bu veri seti konsantre'dir 100.000 kelimeden oluşan 3.000.000 kadar kelimenin üzerinde türemiştir.
bu veri setini modele direk vermeniz halinde modeliniz çok katı bir türkçe hocasına dönüşür.
tavsiyem ilk veri setim olan zurriyet_dna_v6 veri seti ile önce modeli eğitin ikinci eğitimde bu veri setini kullanın.
3. eğitimde en az 35.000.000 luk bir veri setini kullanın.
🎯 Dataset Amacı
Bu veri seti, Türkçe morfoloji temelli zengin varyasyonlu soru–cevap çiftlerinden oluşur.
Temel hedef:
Türkçe LLM modellerini instruction-tuning için eğitmek
Aynı bilgiyi farklı soru formlarıyla doğru üretmeyi öğretmek
Morfolojik tutarlılığı artırmak
Hallüsinasyon kaynaklı çekim ve yapı hatalarını azaltmak
Türkçe eklemeli bir dildir. Bu nedenle yüzey formdan ziyade yapısal doğruluk kritik önemdedir. Bu veri seti, soru çeşitliliği üzerinden yapısal bilinç kazandırmayı amaçlar.
📊 Veri Yapısı
Her satır tek bir JSON objesidir (JSONL format).
Örnek:
{
"soru": "dulda kelimesi kaç hecedir?",
"cevap": "2 hecedir.",
"kelime": "dulda",
"kok": "dulda",
"primary_pos": "Noun",
"heceler": ["dul", "da"],
"hece_sayisi": 2,
"veri_kaynagi": "zurriyet_v6.0_dna"
}
🧠 Veri Üretim Yaklaşımı
98.108 TDK temelli kelime üzerinden 3.000.000 kadar üretim
Morfolojik DNA altyapısı kullanılarak soru varyasyonu
Aynı bilginin çoklu dilsel formda ifade edilmesi
Programatik validasyon
Yapısal tutarlılık kontrolü
Bu yöntem sayesinde model:
Soru formuna bağımlı kalmadan doğru yanıt üretmeyi öğrenir
Morfolojik özellikleri implicit olarak içselleştirir
Yapısal tekrarlar üzerinden güvenilirlik kazanır
📦 Format Detayları
Dosya türü: .jsonl
Encoding: UTF-8
Her satır bağımsız JSON objesidir
Satırlar arasında virgül yoktur
Büyük veri için streaming uyumludur
🚀 Kullanım Alanları
Instruction fine-tuning
Supervised fine-tuning (SFT)
RLHF öncesi temel eğitim
Türkçe QA sistemleri
Morfoloji-aware LLM geliştirme
Akademik NLP araştırmaları
🔬 Teknik Özellikler
Yüksek varyasyonlu soru yapıları
Morfolojik farkındalık temelli içerik
Hece bilgisi entegrasyonu
POS tabanlı etiketleme
Metadata destekli kayıtlar
🌍 Vizyon:
Dil yalnızca kelime üretmek değildir;
yapısal doğruluk üretmektir.
Bu veri seti, Türkçe’nin morfolojik doğasını koruyarak
yapay zekâ sistemlerine yapısal bilinç kazandırmayı hedefler.
Amaç, Türkçe’yi yalnızca veri olarak değil,
kurallı ve yaşayan bir sistem olarak temsil edebilen modeller geliştirmektir.
---
language:
- tr
license: cc-by-4.0
task_categories:
- question-answering
- text-generation
- text-classification
pretty_name: 3 Milyon Zengin Sorular Cevaplar - Turkish Morphology QA Dataset
size_categories:
- 1M<n<10M
---
提供机构:
bysismo



