bist-quant/kap-turkish-financial-sentiment
收藏Hugging Face2025-12-05 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/bist-quant/kap-turkish-financial-sentiment
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
language:
- tr
tags:
- finance
- sentiment-analysis
- turkish
- kap
- stock-market
- nlp
size_categories:
- 1K<n<10K
task_categories:
- text-classification
- text-generation
pretty_name: KAP Turkish Financial Sentiment Dataset
---
# KAP Turkish Financial Sentiment Dataset
Türkçe KAP (Kamuyu Aydınlatma Platformu) bildirimleri için çok boyutlu finansal analiz dataseti.
## Dataset Bilgileri
| Özellik | Değer |
|---------|-------|
| **Kayıt Sayısı** | 3,839 |
| **Dil** | Türkçe |
| **Kaynak** | KAP Bildirimleri |
| **Etiketleme** | GPT-4 (Teacher Model) |
| **Format** | JSONL (Chat Messages) |
## Kullanım Alanları
- Türkçe finansal sentiment analizi
- KAP bildirimi sınıflandırma
- Volatilite tahmini
- İlişkili taraf işlemi tespiti
- LLM fine-tuning (Qwen, Llama, Mistral vb.)
## Dataset Formatı
Her kayıt chat messages formatındadır:
```json
{
"messages": [
{
"role": "user",
"content": "KONU: Devre Kesici Uygulaması\nÖZET: İşlemler durduruldu\nMETİN:\n..."
},
{
"role": "assistant",
"content": "{\"sentiment\": -40, \"volatility\": 5, \"is_related_party\": 0, \"currency_impact\": 0, \"category\": \"GENEL_BILGI\"}"
}
]
}
```
## 🏷️ Label Açıklamaları
### Sentiment (-40 ile +50)
| Skor | Anlam | Örnek |
|------|-------|-------|
| **+50** | Çok Pozitif | Rekor kâr, büyük ihale kazanımı |
| **+30** | Pozitif | Kâr artışı, temettü, yeni yatırım |
| **0** | Nötr | Rutin açıklamalar |
| **-20** | Negatif | Küçük zarar, dava |
| **-40** | Çok Negatif | Taban devre kesici, ciddi ceza |
### Volatility (0-5)
| Seviye | Beklenen Fiyat Hareketi |
|--------|-------------------------|
| 0 | Etkisiz |
| 1 | %1-2 |
| 2 | %2-5 |
| 3 | %5-10 |
| 4 | %10-20 |
| 5 | >%20 (Devre kesici) |
### Category
| Kategori | Açıklama |
|----------|----------|
| `FINANSAL_RAPOR` | Finansal tablolar, kâr/zarar açıklamaları |
| `SERMAYE_TEMETTU` | Temettü, sermaye artırımı, pay işlemleri |
| `VARLIK_ISLEMI` | Yatırım, sözleşme, ihale |
| `HUKUKI_YONETIM` | Hukuki süreçler, yönetim değişiklikleri |
| `GENEL_BILGI` | Devre kesici, genel kurul, diğer |
### Diğer Alanlar
- `is_related_party`: İlişkili taraf işlemi (0: Hayır, 1: Evet)
- `currency_impact`: Döviz etkisi (0: Etkisiz, 2: Döviz etkisi var)
## Dataset İstatistikleri
### Sentiment Dağılımı
| Skor | Adet | Oran |
|------|------|------|
| 0 (Nötr) | 2,478 | 64.5% |
| +30 (Pozitif) | 850 | 22.1% |
| -20 (Negatif) | 283 | 7.4% |
| -40 (Çok Negatif) | 153 | 4.0% |
| +50 (Çok Pozitif) | 75 | 2.0% |
### Kategori Dağılımı
| Kategori | Adet | Oran |
|----------|------|------|
| GENEL_BILGI | 1,287 | 33.5% |
| FINANSAL_RAPOR | 1,238 | 32.2% |
| SERMAYE_TEMETTU | 557 | 14.5% |
| VARLIK_ISLEMI | 538 | 14.0% |
| HUKUKI_YONETIM | 219 | 5.7% |
### Volatility Dağılımı
| Seviye | Adet | Oran |
|--------|------|------|
| 0 | 1,854 | 48.3% |
| 1 | 697 | 18.2% |
| 2 | 554 | 14.4% |
| 3 | 111 | 2.9% |
| 4 | 80 | 2.1% |
| 5 | 543 | 14.1% |
## 🚀 Kullanım
### Datasets Kütüphanesi ile
```python
from datasets import load_dataset
dataset = load_dataset("furkanyllmz/kap-turkish-financial-sentiment")
# İlk örneği göster
print(dataset["train"][0])
```
### Fine-tuning için
```python
from datasets import load_dataset
dataset = load_dataset("furkanyllmz/kap-turkish-financial-sentiment")
# Train/test split
train_test = dataset["train"].train_test_split(test_size=0.1, seed=42)
train_data = train_test["train"]
test_data = train_test["test"]
```
### MLX-LM ile Fine-tuning
```bash
# Veriyi indir
python -c "from datasets import load_dataset; ds = load_dataset('furkanyllmz/kap-turkish-financial-sentiment'); ds['train'].to_json('data/train.jsonl')"
# Fine-tune
python -m mlx_lm.lora \
--model mlx-community/Qwen2.5-7B-Instruct-4bit \
--train \
--data ./data \
--iters 6000
```
## Önemli Notlar
1. **Volatility=5 Kuralı:** Sadece metinde "DEVRE KESİCİ" kelimesi geçen kayıtlarda volatility=5 atanmıştır.
2. **Nötr Ağırlığı:** Dataset %64.5 nötr içerir. Fine-tuning sırasında class weights kullanmanız önerilir.
3. **Chat Format:** Dataset, instruction-tuned modeller için chat messages formatındadır.
## 🔧 Oluşturma Pipeline
1. KAP'tan ham bildirimler toplandı (3,341 dosya)
2. GPT-4 ile etiketleme yapıldı (label'lar)
3. Label'lar sayısal skorlara dönüştürüldü
4. Gürültü filtreleme ve dengeleme uygulandı
5. Final dataset: 3,839 kayıt
## Lisans
MIT License
## 👥 Katkıda Bulunanlar
| | İsim | Rol | Profil |
|---|------|-----|--------|
| 👨💻 | **Furkan Yılmaz** | Proje Sahibi, ML Engineer | [@furkanyllmz](https://huggingface.co/furkanyllmz) |
| 👩💻 | **Aleyna Taşdemir** | Veri Hazırlama, Etiketleme | [@aleynatasdemir](https://huggingface.co/aleynatasdemir) |
## Teşekkürler
- [KAP](https://www.kap.org.tr/) - Kamuyu Aydınlatma Platformu
## İletişim
Dataset ile ilgili sorularınız için issue açabilirsiniz.
---
**Yapımcılar:**
[@furkanyllmz](https://huggingface.co/furkanyllmz) · [@aleynatasdemir](https://huggingface.co/aleynatasdemir)
提供机构:
bist-quant



