five

bist-quant/kap-turkish-financial-sentiment

收藏
Hugging Face2025-12-05 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/bist-quant/kap-turkish-financial-sentiment
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit language: - tr tags: - finance - sentiment-analysis - turkish - kap - stock-market - nlp size_categories: - 1K<n<10K task_categories: - text-classification - text-generation pretty_name: KAP Turkish Financial Sentiment Dataset --- # KAP Turkish Financial Sentiment Dataset Türkçe KAP (Kamuyu Aydınlatma Platformu) bildirimleri için çok boyutlu finansal analiz dataseti. ## Dataset Bilgileri | Özellik | Değer | |---------|-------| | **Kayıt Sayısı** | 3,839 | | **Dil** | Türkçe | | **Kaynak** | KAP Bildirimleri | | **Etiketleme** | GPT-4 (Teacher Model) | | **Format** | JSONL (Chat Messages) | ## Kullanım Alanları - Türkçe finansal sentiment analizi - KAP bildirimi sınıflandırma - Volatilite tahmini - İlişkili taraf işlemi tespiti - LLM fine-tuning (Qwen, Llama, Mistral vb.) ## Dataset Formatı Her kayıt chat messages formatındadır: ```json { "messages": [ { "role": "user", "content": "KONU: Devre Kesici Uygulaması\nÖZET: İşlemler durduruldu\nMETİN:\n..." }, { "role": "assistant", "content": "{\"sentiment\": -40, \"volatility\": 5, \"is_related_party\": 0, \"currency_impact\": 0, \"category\": \"GENEL_BILGI\"}" } ] } ``` ## 🏷️ Label Açıklamaları ### Sentiment (-40 ile +50) | Skor | Anlam | Örnek | |------|-------|-------| | **+50** | Çok Pozitif | Rekor kâr, büyük ihale kazanımı | | **+30** | Pozitif | Kâr artışı, temettü, yeni yatırım | | **0** | Nötr | Rutin açıklamalar | | **-20** | Negatif | Küçük zarar, dava | | **-40** | Çok Negatif | Taban devre kesici, ciddi ceza | ### Volatility (0-5) | Seviye | Beklenen Fiyat Hareketi | |--------|-------------------------| | 0 | Etkisiz | | 1 | %1-2 | | 2 | %2-5 | | 3 | %5-10 | | 4 | %10-20 | | 5 | >%20 (Devre kesici) | ### Category | Kategori | Açıklama | |----------|----------| | `FINANSAL_RAPOR` | Finansal tablolar, kâr/zarar açıklamaları | | `SERMAYE_TEMETTU` | Temettü, sermaye artırımı, pay işlemleri | | `VARLIK_ISLEMI` | Yatırım, sözleşme, ihale | | `HUKUKI_YONETIM` | Hukuki süreçler, yönetim değişiklikleri | | `GENEL_BILGI` | Devre kesici, genel kurul, diğer | ### Diğer Alanlar - `is_related_party`: İlişkili taraf işlemi (0: Hayır, 1: Evet) - `currency_impact`: Döviz etkisi (0: Etkisiz, 2: Döviz etkisi var) ## Dataset İstatistikleri ### Sentiment Dağılımı | Skor | Adet | Oran | |------|------|------| | 0 (Nötr) | 2,478 | 64.5% | | +30 (Pozitif) | 850 | 22.1% | | -20 (Negatif) | 283 | 7.4% | | -40 (Çok Negatif) | 153 | 4.0% | | +50 (Çok Pozitif) | 75 | 2.0% | ### Kategori Dağılımı | Kategori | Adet | Oran | |----------|------|------| | GENEL_BILGI | 1,287 | 33.5% | | FINANSAL_RAPOR | 1,238 | 32.2% | | SERMAYE_TEMETTU | 557 | 14.5% | | VARLIK_ISLEMI | 538 | 14.0% | | HUKUKI_YONETIM | 219 | 5.7% | ### Volatility Dağılımı | Seviye | Adet | Oran | |--------|------|------| | 0 | 1,854 | 48.3% | | 1 | 697 | 18.2% | | 2 | 554 | 14.4% | | 3 | 111 | 2.9% | | 4 | 80 | 2.1% | | 5 | 543 | 14.1% | ## 🚀 Kullanım ### Datasets Kütüphanesi ile ```python from datasets import load_dataset dataset = load_dataset("furkanyllmz/kap-turkish-financial-sentiment") # İlk örneği göster print(dataset["train"][0]) ``` ### Fine-tuning için ```python from datasets import load_dataset dataset = load_dataset("furkanyllmz/kap-turkish-financial-sentiment") # Train/test split train_test = dataset["train"].train_test_split(test_size=0.1, seed=42) train_data = train_test["train"] test_data = train_test["test"] ``` ### MLX-LM ile Fine-tuning ```bash # Veriyi indir python -c "from datasets import load_dataset; ds = load_dataset('furkanyllmz/kap-turkish-financial-sentiment'); ds['train'].to_json('data/train.jsonl')" # Fine-tune python -m mlx_lm.lora \ --model mlx-community/Qwen2.5-7B-Instruct-4bit \ --train \ --data ./data \ --iters 6000 ``` ## Önemli Notlar 1. **Volatility=5 Kuralı:** Sadece metinde "DEVRE KESİCİ" kelimesi geçen kayıtlarda volatility=5 atanmıştır. 2. **Nötr Ağırlığı:** Dataset %64.5 nötr içerir. Fine-tuning sırasında class weights kullanmanız önerilir. 3. **Chat Format:** Dataset, instruction-tuned modeller için chat messages formatındadır. ## 🔧 Oluşturma Pipeline 1. KAP'tan ham bildirimler toplandı (3,341 dosya) 2. GPT-4 ile etiketleme yapıldı (label'lar) 3. Label'lar sayısal skorlara dönüştürüldü 4. Gürültü filtreleme ve dengeleme uygulandı 5. Final dataset: 3,839 kayıt ## Lisans MIT License ## 👥 Katkıda Bulunanlar | | İsim | Rol | Profil | |---|------|-----|--------| | 👨‍💻 | **Furkan Yılmaz** | Proje Sahibi, ML Engineer | [@furkanyllmz](https://huggingface.co/furkanyllmz) | | 👩‍💻 | **Aleyna Taşdemir** | Veri Hazırlama, Etiketleme | [@aleynatasdemir](https://huggingface.co/aleynatasdemir) | ## Teşekkürler - [KAP](https://www.kap.org.tr/) - Kamuyu Aydınlatma Platformu ## İletişim Dataset ile ilgili sorularınız için issue açabilirsiniz. --- **Yapımcılar:** [@furkanyllmz](https://huggingface.co/furkanyllmz) · [@aleynatasdemir](https://huggingface.co/aleynatasdemir)
提供机构:
bist-quant
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作