turkerberkdonmez/pubmed-summarization-turkish
收藏Hugging Face2025-11-21 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/turkerberkdonmez/pubmed-summarization-turkish
下载链接
链接失效反馈官方服务:
资源简介:
---
license: unknown
language:
- tr
task_categories:
- summarization
- text-generation
tags:
- medical
- translation
- pubmed
- turkish
size_categories:
- 100K<n<1M
source_datasets:
- ccdv/pubmed-summarization
---
# PubMed Özetleme Veri Seti – Türkçe Özetler (MedGemma 27B)
Bu veri seti, orijinal **[ccdv/pubmed-summarization](https://huggingface.co/datasets/ccdv/pubmed-summarization)** veri setindeki
**abstract (özet) alanlarının MedGemma 27B modeli ile Türkçe’ye çevrilmiş halini** içermektedir.
Bu repoda **yalnızca Türkçe özetler** yer almaktadır.
Orijinal İngilizce makale metinleri ve özetler, `ccdv/pubmed-summarization` veri setinde kalmaya devam eder ve burada tekrar edilmez.
---
## Veri Seti Özeti
- **Kaynak veri seti:** `ccdv/pubmed-summarization`
- **İçerik:** PubMed makale özetlerinin Türkçe çevirileri
- **Kullanılan model:** **MedGemma 27B** (tıbbî dil modeli)
- **Amaçlanan kullanım alanları:** - Türkçe tıbbî özetleme (summarization)
- Türkçe tıbbî dil modelleme
- Klinik metin madenciliği ve NLP çalışmaları
- Tıpta yapay zeka ve XAI araştırmaları için ön-eğitim / ince ayar (fine-tuning) datası
Her satır, bir PubMed makalesine ait abstract (özet) alanının Türkçe çevirisine karşılık gelir.
### Alanlar
- `abstract` — Orijinal abstract (özet) alanının Türkçe çevirisi
Her bölümdeki (train / validation / test) satır sayısı ve sıralama,
`ccdv/pubmed-summarization` veri seti ile birebir uyumludur.
İhtiyaç halinde indeks üzerinden orijinal veri setindeki kayıtlarla eşleştirme yapılabilir.
---
## Veri Bölümleri
Orijinal veri setindeki bölünme yapısı korunmuştur:
| Bölüm | Örnek Sayısı |
|-------------|--------------|
| Train | 119,924 |
| Validation | 6,633 |
| Test | 6,658 |
---
## Çeviri Metodolojisi
1. Başlangıç noktası olarak `ccdv/pubmed-summarization` veri setindeki **abstract** alanı kullanıldı.
2. Her abstract, **MedGemma 27B** modeli ile İngilizce’den Türkçe’ye çevrildi.
3. Çeviri sürecinde:
- Tıbbî terminolojinin mümkün olduğunca korunmasına,
- Cümle yapısının ve anlam bütünlüğünün bozulmamasına,
- Akıcı ve doğal bir Türkçe üretilmesine
dikkat edildi.
4. Temel biçimlendirme (boşluklar, satır sonları vb.) dışında ek bir manuel düzeltme veya filtreleme uygulanmadı.
5. Orijinal makale metinleri (full text) ve İngilizce özetler bu repoda yer almaz; yalnızca Türkçe özet alanı sunulur.
Bu veri seti, özellikle Türkçe tıp alanında veri azlığını gidermeyi ve
tıbba yönelik büyük dil modellerinin Türkçe performansını artırmayı hedefleyen çalışmalarda
yardımcı bir kaynak olarak tasarlanmıştır.
---
## Kullanım Örneği
```python
from datasets import load_dataset
# Türkçe PubMed özet veri setini yükle
ds = load_dataset("turkerberkdonmez/pubmed-summarization-tr")
# Örnek bir kayıt
sample = ds["train"][0]
print(sample["abstract"])
```
---
## Atıf
Bu veri setini çalışmalarınızda kullanırsanız, lütfen aşağıdaki şekilde atıfta bulununuz:
```bibtex
@dataset{pubmed_summarization_tr,
title = {PubMed Summarization Dataset -- Turkish Abstracts (MedGemma 27B)},
author = {D{\"o}nmez, T{\"u}rker Berk},
year = {2025},
howpublished = {Hugging Face: turkerberkdonmez/pubmed-summarization-tr},
note = {Turkish translations of PubMed abstracts generated using MedGemma 27B
from the ccdv/pubmed-summarization dataset}
}
```
提供机构:
turkerberkdonmez



