five

bysismo/3Milyon_Zengin_Sorular_Cevaplar

收藏
Hugging Face2026-03-24 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/bysismo/3Milyon_Zengin_Sorular_Cevaplar
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - tr tags: - agent - legal - chemistry - biology - synthetic pretty_name: bysismo_turk size_categories: - 100K<n<1M --- 🇹🇷 3 Milyon Zengin Sorular Cevaplar / Morphology bombası Turkish Morphology-Based Instruction & QA Dataset İçerik Sahipleri: Hakan Ttkr & Bysismo Toplam Kayıt: ~2.982.000+ Format: JSONL Dil: Türkçe Versiyon Kaynağı: zurriyet_v6.0_dna Dikkat!!!!!: Bu veri seti konsantre'dir 100.000 kelimeden oluşan 3.000.000 kadar kelimenin üzerinde türemiştir. bu veri setini modele direk vermeniz halinde modeliniz çok katı bir türkçe hocasına dönüşür. tavsiyem ilk veri setim olan zurriyet_dna_v6 veri seti ile önce modeli eğitin ikinci eğitimde bu veri setini kullanın. 3. eğitimde en az 35.000.000 luk bir veri setini kullanın. 🎯 Dataset Amacı Bu veri seti, Türkçe morfoloji temelli zengin varyasyonlu soru–cevap çiftlerinden oluşur. Temel hedef: Türkçe LLM modellerini instruction-tuning için eğitmek Aynı bilgiyi farklı soru formlarıyla doğru üretmeyi öğretmek Morfolojik tutarlılığı artırmak Hallüsinasyon kaynaklı çekim ve yapı hatalarını azaltmak Türkçe eklemeli bir dildir. Bu nedenle yüzey formdan ziyade yapısal doğruluk kritik önemdedir. Bu veri seti, soru çeşitliliği üzerinden yapısal bilinç kazandırmayı amaçlar. 📊 Veri Yapısı Her satır tek bir JSON objesidir (JSONL format). Örnek: { "soru": "dulda kelimesi kaç hecedir?", "cevap": "2 hecedir.", "kelime": "dulda", "kok": "dulda", "primary_pos": "Noun", "heceler": ["dul", "da"], "hece_sayisi": 2, "veri_kaynagi": "zurriyet_v6.0_dna" } 🧠 Veri Üretim Yaklaşımı 98.108 TDK temelli kelime üzerinden 3.000.000 kadar üretim Morfolojik DNA altyapısı kullanılarak soru varyasyonu Aynı bilginin çoklu dilsel formda ifade edilmesi Programatik validasyon Yapısal tutarlılık kontrolü Bu yöntem sayesinde model: Soru formuna bağımlı kalmadan doğru yanıt üretmeyi öğrenir Morfolojik özellikleri implicit olarak içselleştirir Yapısal tekrarlar üzerinden güvenilirlik kazanır 📦 Format Detayları Dosya türü: .jsonl Encoding: UTF-8 Her satır bağımsız JSON objesidir Satırlar arasında virgül yoktur Büyük veri için streaming uyumludur 🚀 Kullanım Alanları Instruction fine-tuning Supervised fine-tuning (SFT) RLHF öncesi temel eğitim Türkçe QA sistemleri Morfoloji-aware LLM geliştirme Akademik NLP araştırmaları 🔬 Teknik Özellikler Yüksek varyasyonlu soru yapıları Morfolojik farkındalık temelli içerik Hece bilgisi entegrasyonu POS tabanlı etiketleme Metadata destekli kayıtlar 🌍 Vizyon: Dil yalnızca kelime üretmek değildir; yapısal doğruluk üretmektir. Bu veri seti, Türkçe’nin morfolojik doğasını koruyarak yapay zekâ sistemlerine yapısal bilinç kazandırmayı hedefler. Amaç, Türkçe’yi yalnızca veri olarak değil, kurallı ve yaşayan bir sistem olarak temsil edebilen modeller geliştirmektir. --- language: - tr license: cc-by-4.0 task_categories: - question-answering - text-generation - text-classification pretty_name: 3 Milyon Zengin Sorular Cevaplar - Turkish Morphology QA Dataset size_categories: - 1M<n<10M ---
提供机构:
bysismo
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作