turkerberkdonmez/pubmed-summarization-turkish

Name: turkerberkdonmez/pubmed-summarization-turkish
Creator: turkerberkdonmez
Published: 2025-11-21 10:05:35
License: 暂无描述

Hugging Face2025-11-21 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/turkerberkdonmez/pubmed-summarization-turkish

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: unknown language: - tr task_categories: - summarization - text-generation tags: - medical - translation - pubmed - turkish size_categories: - 100K<n<1M source_datasets: - ccdv/pubmed-summarization --- # PubMed Özetleme Veri Seti – Türkçe Özetler (MedGemma 27B) Bu veri seti, orijinal **[ccdv/pubmed-summarization](https://huggingface.co/datasets/ccdv/pubmed-summarization)** veri setindeki **abstract (özet) alanlarının MedGemma 27B modeli ile Türkçe’ye çevrilmiş halini** içermektedir. Bu repoda **yalnızca Türkçe özetler** yer almaktadır. Orijinal İngilizce makale metinleri ve özetler, `ccdv/pubmed-summarization` veri setinde kalmaya devam eder ve burada tekrar edilmez. --- ## Veri Seti Özeti - **Kaynak veri seti:** `ccdv/pubmed-summarization` - **İçerik:** PubMed makale özetlerinin Türkçe çevirileri - **Kullanılan model:** **MedGemma 27B** (tıbbî dil modeli) - **Amaçlanan kullanım alanları:** - Türkçe tıbbî özetleme (summarization) - Türkçe tıbbî dil modelleme - Klinik metin madenciliği ve NLP çalışmaları - Tıpta yapay zeka ve XAI araştırmaları için ön-eğitim / ince ayar (fine-tuning) datası Her satır, bir PubMed makalesine ait abstract (özet) alanının Türkçe çevirisine karşılık gelir. ### Alanlar - `abstract` — Orijinal abstract (özet) alanının Türkçe çevirisi Her bölümdeki (train / validation / test) satır sayısı ve sıralama, `ccdv/pubmed-summarization` veri seti ile birebir uyumludur. İhtiyaç halinde indeks üzerinden orijinal veri setindeki kayıtlarla eşleştirme yapılabilir. --- ## Veri Bölümleri Orijinal veri setindeki bölünme yapısı korunmuştur: | Bölüm | Örnek Sayısı | |-------------|--------------| | Train | 119,924 | | Validation | 6,633 | | Test | 6,658 | --- ## Çeviri Metodolojisi 1. Başlangıç noktası olarak `ccdv/pubmed-summarization` veri setindeki **abstract** alanı kullanıldı. 2. Her abstract, **MedGemma 27B** modeli ile İngilizce’den Türkçe’ye çevrildi. 3. Çeviri sürecinde: - Tıbbî terminolojinin mümkün olduğunca korunmasına, - Cümle yapısının ve anlam bütünlüğünün bozulmamasına, - Akıcı ve doğal bir Türkçe üretilmesine dikkat edildi. 4. Temel biçimlendirme (boşluklar, satır sonları vb.) dışında ek bir manuel düzeltme veya filtreleme uygulanmadı. 5. Orijinal makale metinleri (full text) ve İngilizce özetler bu repoda yer almaz; yalnızca Türkçe özet alanı sunulur. Bu veri seti, özellikle Türkçe tıp alanında veri azlığını gidermeyi ve tıbba yönelik büyük dil modellerinin Türkçe performansını artırmayı hedefleyen çalışmalarda yardımcı bir kaynak olarak tasarlanmıştır. --- ## Kullanım Örneği ```python from datasets import load_dataset # Türkçe PubMed özet veri setini yükle ds = load_dataset("turkerberkdonmez/pubmed-summarization-tr") # Örnek bir kayıt sample = ds["train"][0] print(sample["abstract"]) ``` --- ## Atıf Bu veri setini çalışmalarınızda kullanırsanız, lütfen aşağıdaki şekilde atıfta bulununuz: ```bibtex @dataset{pubmed_summarization_tr, title = {PubMed Summarization Dataset -- Turkish Abstracts (MedGemma 27B)}, author = {D{\"o}nmez, T{\"u}rker Berk}, year = {2025}, howpublished = {Hugging Face: turkerberkdonmez/pubmed-summarization-tr}, note = {Turkish translations of PubMed abstracts generated using MedGemma 27B from the ccdv/pubmed-summarization dataset} } ```

提供机构：

turkerberkdonmez

5,000+

优质数据集

54 个

任务类型

进入经典数据集