umutcaned/turkreason

Name: umutcaned/turkreason
Creator: umutcaned
Published: 2026-04-08 19:18:33
License: 暂无描述

Hugging Face2026-04-08 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/umutcaned/turkreason

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - tr license: cc-by-4.0 size_categories: - 1K<n<10K task_categories: - question-answering - multiple-choice task_ids: - multiple-choice-qa pretty_name: TurkReason tags: - turkish - reasoning - benchmark - multiple-choice - evaluation - llm configs: - config_name: default data_files: - split: test path: turkreason.parquet --- # TurkReason **TurkReason**, büyük dil modellerinin (LLM) **Türkçe akıl yürütme** becerilerini ölçmek için tasarlanmış, **5107 çoktan seçmeli sorudan** oluşan bir benchmark veri kümesidir. Her soru 5 seçenekli (A–E), tek doğru cevaplı ve detaylı açıklamalıdır. > Bu dataset bilgi (knowledge) değil, **düşünme** (reasoning) ölçer. Sorular ezberden değil, çıkarım, analiz, problem çözme ve karar verme becerisinden cevaplanmak üzere üretilmiştir. ## Amaç Mevcut Türkçe değerlendirme setlerinin çoğu ya İngilizce çevirisi (MMLU-tr, ARC-tr) ya da bilgi ağırlıklıdır. TurkReason aşağıdaki boşluğu doldurmak için kuruldu: - **Akıl yürütme odaklı** — sorular ezber yerine syllogism, hipotez kurma, neden-sonuç, çıkarım gibi düşünme becerilerini ölçer. - **Türkçe yerelleştirilmiş** — Türk isimleri, şehirleri, TL, TCMB, TSE standartları, Türk hukuku ve tarihi gibi yerel bağlam. - **12 farklı reasoning kategorisi** — mantık, matematik, okuduğunu anlama, bilim, hukuk, ekonomi, mühendislik, etik, günlük hayat, tarih, veri yorumlama ve dil. - **Dengeli cevap dağılımı** — her seçenek (A–E) ~%20 oranında doğru cevap olarak dağıtılmıştır (post-process aşamasında deterministik olarak shuffle edildi), böylece pozisyon-tabanlı tahmin (örn. her zaman B demek) avantaj sağlamaz. ## Hızlı kullanım ```python from datasets import load_dataset ds = load_dataset("umutcaned/turkreason", split="test") print(ds[0]) ``` ## Veri alanları | Alan | Tip | Açıklama | |------|-----|----------| | `question_id` | string | `turkreason-XXXXX` formatında benzersiz kimlik | | `category` | string | 12 ana kategoriden biri (aşağıdaki tabloya bakın) | | `subcategory` | string | Kategori içi alt tür | | `question` | string | Türkçe soru metni | | `options` | list[string] | 5 seçenek, `"A) ..."` ... `"E) ..."` formatında | | `answer` | string | Doğru cevabın harfi (`A`–`E`) | | `answer_index` | int | Doğru cevabın 0-tabanlı indeksi (0–4) | | `explanation` | string | Cevabın neden doğru olduğunu açıklayan Türkçe metin | | `difficulty` | string | `easy`, `medium`, `hard` | | `num_options` | int | Her zaman 5 | | `source` | string | Veri kaynağı | | `language` | string | Dil kodu (`tr`) | ## Kategori dağılımı | Kategori ID | Türkçe ad | Soru sayısı | |-------------|-----------|-------------| | `math_problem_solving` | Matematik Problem Çözme | 604 | | `logical_reasoning` | Mantıksal Çıkarım | 577 | | `reading_comprehension` | Okuduğunu Anlama + Çıkarım | 500 | | `scientific_reasoning` | Bilimsel Akıl Yürütme | 495 | | `economics_finance` | Ekonomi + Finans | 400 | | `daily_life` | Günlük Hayat Problemleri | 395 | | `turkish_law` | Türk Hukuku + Anayasa | 394 | | `history_social` | Tarih + Sosyal Analiz | 374 | | `engineering` | Mühendislik Problem Çözme | 349 | | `ethics_philosophy` | Etik + Felsefi Düşünme | 345 | | `data_interpretation` | Veri Yorumlama | 337 | | `language_semantics` | Dil + Anlam Analizi | 337 | **Toplam:** 5107 soru ## Zorluk dağılımı | Zorluk | Sayı | Oran | |--------|------|------| | easy | 1075 | 21.0% | | medium | 2540 | 49.7% | | hard | 1492 | 29.2% | ## Cevap pozisyonu dağılımı Pozisyon bias'ını engellemek için her sorunun seçenekleri post-process aşamasında (her soru için kendi `question_id`'sinden seedlenmiş deterministik shuffle ile) yeniden sıralanmıştır. | Seçenek | Sayı | Oran | |---------|------|------| | A | 1010 | 19.8% | | B | 1009 | 19.8% | | C | 1012 | 19.8% | | D | 1015 | 19.9% | | E | 1061 | 20.8% | ## Örnek satır ```json { "question_id": "turkreason-00001", "category": "logical_reasoning", "subcategory": "syllogism", "question": "Tüm öğretmenler sabırlıdır. Bazı sabırlı insanlar müzisyendir. Bu iki önermeye göre aşağıdakilerden hangisi kesinlikle doğrudur?", "options": [ "A) Tüm müzisyenler sabırlıdır.", "B) Bazı müzisyenler öğretmendir.", "C) Bazı sabırlı insanlar öğretmendir.", "D) Hiçbir öğretmen müzisyen değildir.", "E) Tüm öğretmenler müzisyendir." ], "answer": "C", "answer_index": 2, "explanation": "İlk önerme 'Tüm öğretmenler sabırlıdır' diyor. Bu, öğretmenlerin sabırlı insanlar kümesinin içinde olduğunu gösterir. Dolayısıyla sabırlı insanların en az bir kısmı (öğretmenler) zaten sabırlı insanlar kümesinde yer alır. Bu yüzden 'Bazı sabırlı insanlar öğretmendir' kesinlikle doğrudur. Diğer seçenekler iki önermeden mantıksal olarak zorunlu biçimde çıkmaz.", "difficulty": "medium", "num_options": 5, "source": "synthetic-sonnet-4.6", "language": "tr" } ``` ## Veri üretimi - **Model:** Anthropic **`claude-sonnet-4-6`** (tek model, tüm dataset için) - **Yöntem:** Her kategori için özelleştirilmiş Türkçe sistem promptu, `temperature=0.8`, streaming - **Ham çıktı:** Her istek başına 10 soru, 12 kategoride ~520 istek - **Doğrulama:** JSON şeması, alan kontrolleri, A–E aralığı, `answer ↔ answer_index` tutarlılığı, duplicate (normalize edilmiş soru metni hash'i) kontrolü - **Post-process:** Seçenek shuffle (cevap pozisyonu dengeleme) + alt kategori normalizasyonu - **Toplam maliyet:** ~**$96.60 USD** (Anthropic API üzerinden, claude-sonnet-4-6 fiyatlandırmasıyla) ## Değerlendirme önerisi ```python from datasets import load_dataset ds = load_dataset("umutcaned/turkreason", split="test") correct = 0 for ex in ds: prediction = your_model.predict(ex["question"], ex["options"]) # 'A'..'E' if prediction == ex["answer"]: correct += 1 print(f"Accuracy: {correct / len(ds):.2%}") ``` Per-category accuracy daha bilgilendirici olur: ```python from collections import defaultdict cat_correct = defaultdict(int) cat_total = defaultdict(int) for ex in ds: cat_total[ex["category"]] += 1 if your_model.predict(ex["question"], ex["options"]) == ex["answer"]: cat_correct[ex["category"]] += 1 for cat in sorted(cat_total): print(f"{cat:25s} {cat_correct[cat] / cat_total[cat]:.2%}") ``` ## Kısıtlar ve dürüst notlar - **Sentetik veri** — sorular bir dil modeli tarafından üretilmiştir, insan tarafından yazılmamıştır. Bu nedenle ufak doğruluk hataları, doğal dil bozuklukları veya benzer kalıplar bulunabilir. - **Self-evaluation problemi** — bu set Claude tarafından üretildiğinden Claude ailesi modellerini değerlendirmek için kullanırken bu iç-test bias'ını göz önünde bulundurun. - **Alt kategori çeşitliliği eşit değil** — bazı kategorilerde model sadece bir alt türde yoğunlaştı (örn. `reading_comprehension` için tüm sorular `inference`). Bu, ana kategori değerlendirmesini etkilemez ama alt-kategori bazlı analizde dikkat edin. - **Türk hukuku güncelliği** — yasal sorular üretildiği tarihteki mevzuata göre yazılmıştır, sonradan değişen mevzuat hükümleri için garanti vermez. - **Bağımsız insan doğrulaması yapılmamıştır.** Pull request veya issue ile yanlış olduğunu düşündüğünüz soruları bildirebilirsiniz. ## Lisans [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/) — atıf vererek serbestçe kullanabilirsiniz. ## Atıf ```bibtex @misc{turkreason2026, title = {TurkReason: A Turkish Reasoning Benchmark for Large Language Models}, author = {Edizaslan, Umutcan}, year = {2026}, url = {https://huggingface.co/datasets/umutcaned/turkreason} } ```

提供机构：

umutcaned

5,000+

优质数据集

54 个

任务类型

进入经典数据集