udeezz/medical-checkup-synthetic-dataset
收藏Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/udeezz/medical-checkup-synthetic-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-3.0
language:
- id
tags:
- medical
- dummy
- generated-data
- medical-record
size_categories:
- 10K<n<100K
---
# Medical Check-Up (MCU) Synthetic Dataset
## 🎯 Tujuan
Dataset ini berisi data sintetis yang meniru hasil pemeriksaan kesehatan lengkap (riwayat medis, pemeriksaan fisik, hasil laboratorium, vaksinasi, faktor risiko kerja, dll.). Dataset ini dirancang khusus untuk:
* **Analisis Klinis**: Eksplorasi profil kesehatan dan pengelompokan faktor risiko.
* **Prediksi Penyakit**: Melatih model machine learning untuk memprediksi diagnosis utama berdasarkan data input medis.
* **Kesehatan Kerja**: Mengevaluasi hubungan antara faktor risiko pekerjaan (ergonomis/kimia) terhadap hasil klinis pasien.
## 📊 Ukuran & Struktur Data
Setiap baris dalam dataset ini mewakili satu kunjungan medis atau satu rangkaian pemeriksaan pasien lengkap. Identitas pasien telah sepenuhnya di-anonimkan.
### Kelompok Kolom Utama
| Kategori | Deskripsi Fitur |
| :--- | :--- |
| **Administrasi** | Instansi, tanggal pemeriksaan, dokter, nomor rekam medis, nama pasien, jenis kelamin, tanggal lahir. |
| **Anamnesis** | >80 kolom mencatat riwayat penyakit (Asma, TB, Diabetes, Stroke, Alergi, dll.). |
| **Vaksinasi** | Status vaksin Hepatitis A/B, BCG, DPT, Campak, Tetanus, COVID-19. |
| **Paparan Kerja** | Faktor fisik (kebisingan, radiasi), kimia (debu), psikologis (beban kerja), dan ergonomis (posisi duduk/berdiri lama). |
| **Reproduksi** | Usia menarche, siklus haid, kehamilan, melahirkan, keguguran (Hanya untuk wanita). |
| **Pemeriksaan Fisik** | Tanda vital (TD, nadi, napas, suhu, saturasi), Antropometri (TB, BB, IMT), dan pemeriksaan Head-to-Toe. |
| **Hasil Lab** | Nilai numerik & status (normal/abnormal) untuk gula darah, kolesterol (HDL/LDL/Trigliserida), asam urat, hemoglobin. |
| **Kesimpulan & Saran** | Teks bebas diagnosis utama, saran medis, rekomendasi *Fit-to-Work*, dan rujukan tambahan. |
## 🛠️ Spesifikasi Tipe Data
Untuk mendukung integritas data saat diimpor ke sistem database atau *data frame*, dataset ini menggunakan skema berikut:
* **VARCHAR**: Digunakan untuk teks (nama pasien, kategori IMT, status lab, diagnosis).
* **BOOLEAN**: Digunakan untuk indikator Ya/Tidak (riwayat penyakit, status vaksin, paparan kerja).
* **DOUBLE**: Digunakan untuk nilai numerik kontinu (tinggi badan, berat badan, nilai laboratorium, usia menarche).
* **BIGINT**: Digunakan untuk hitungan bulat (detak nadi, frekuensi napas, nilai saturasi).
## ⚠️ Karakteristik Khusus
1. **Format Tanggal**: Semua kolom tanggal disimpan dalam tipe `VARCHAR` dengan format **"MM/DD/YYYY"**.
2. **Anonimisasi**: Kolom `ADMINISTRASI_nama_pasien` secara seragam diisi dengan nilai **"Anonimous"**.
3. **Handling NULL**: Beberapa kolom (khususnya kategori Reproduksi) akan bernilai `NULL` jika data tidak tersedia atau tidak relevan (misalnya data reproduksi pada pasien pria).
## 🔍 Potensi Analisis
Dataset ini memungkinkan peneliti atau pengembang untuk melakukan simulasi skenario medis seperti:
1. **Profil Kesehatan**: Mengelompokkan pasien berdasarkan kombinasi faktor risiko kronis dan paparan di tempat kerja.
2. **Prediksi Diagnosis**: Menggunakan hasil laboratorium dan riwayat anamnesis untuk memprediksi diagnosis utama secara otomatis.
3. **Korelasi Kerja-Kesehatan**: Menganalisis dampak posisi ergonomis atau paparan kimia terhadap nilai laboratorium atau kategori IMT.
4. **Evaluasi Vaksinasi**: Memeriksa hubungan antara status vaksinasi dengan hasil laboratorium tertentu atau diagnosis akhir.
---
**Catatan Penting:**
Data ini bersifat **sintetis**. Pola statistik yang dihasilkan mungkin tidak mencerminkan populasi dunia nyata secara akurat. Struktur tabel yang lengkap disediakan semata-mata untuk simulasi analisis medis dan pelatihan model komputasi.
提供机构:
udeezz



