five

udeezz/medical-checkup-synthetic-dataset

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/udeezz/medical-checkup-synthetic-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-3.0 language: - id tags: - medical - dummy - generated-data - medical-record size_categories: - 10K<n<100K --- # Medical Check-Up (MCU) Synthetic Dataset ## 🎯 Tujuan Dataset ini berisi data sintetis yang meniru hasil pemeriksaan kesehatan lengkap (riwayat medis, pemeriksaan fisik, hasil laboratorium, vaksinasi, faktor risiko kerja, dll.). Dataset ini dirancang khusus untuk: * **Analisis Klinis**: Eksplorasi profil kesehatan dan pengelompokan faktor risiko. * **Prediksi Penyakit**: Melatih model machine learning untuk memprediksi diagnosis utama berdasarkan data input medis. * **Kesehatan Kerja**: Mengevaluasi hubungan antara faktor risiko pekerjaan (ergonomis/kimia) terhadap hasil klinis pasien. ## 📊 Ukuran & Struktur Data Setiap baris dalam dataset ini mewakili satu kunjungan medis atau satu rangkaian pemeriksaan pasien lengkap. Identitas pasien telah sepenuhnya di-anonimkan. ### Kelompok Kolom Utama | Kategori | Deskripsi Fitur | | :--- | :--- | | **Administrasi** | Instansi, tanggal pemeriksaan, dokter, nomor rekam medis, nama pasien, jenis kelamin, tanggal lahir. | | **Anamnesis** | >80 kolom mencatat riwayat penyakit (Asma, TB, Diabetes, Stroke, Alergi, dll.). | | **Vaksinasi** | Status vaksin Hepatitis A/B, BCG, DPT, Campak, Tetanus, COVID-19. | | **Paparan Kerja** | Faktor fisik (kebisingan, radiasi), kimia (debu), psikologis (beban kerja), dan ergonomis (posisi duduk/berdiri lama). | | **Reproduksi** | Usia menarche, siklus haid, kehamilan, melahirkan, keguguran (Hanya untuk wanita). | | **Pemeriksaan Fisik** | Tanda vital (TD, nadi, napas, suhu, saturasi), Antropometri (TB, BB, IMT), dan pemeriksaan Head-to-Toe. | | **Hasil Lab** | Nilai numerik & status (normal/abnormal) untuk gula darah, kolesterol (HDL/LDL/Trigliserida), asam urat, hemoglobin. | | **Kesimpulan & Saran** | Teks bebas diagnosis utama, saran medis, rekomendasi *Fit-to-Work*, dan rujukan tambahan. | ## 🛠️ Spesifikasi Tipe Data Untuk mendukung integritas data saat diimpor ke sistem database atau *data frame*, dataset ini menggunakan skema berikut: * **VARCHAR**: Digunakan untuk teks (nama pasien, kategori IMT, status lab, diagnosis). * **BOOLEAN**: Digunakan untuk indikator Ya/Tidak (riwayat penyakit, status vaksin, paparan kerja). * **DOUBLE**: Digunakan untuk nilai numerik kontinu (tinggi badan, berat badan, nilai laboratorium, usia menarche). * **BIGINT**: Digunakan untuk hitungan bulat (detak nadi, frekuensi napas, nilai saturasi). ## ⚠️ Karakteristik Khusus 1. **Format Tanggal**: Semua kolom tanggal disimpan dalam tipe `VARCHAR` dengan format **"MM/DD/YYYY"**. 2. **Anonimisasi**: Kolom `ADMINISTRASI_nama_pasien` secara seragam diisi dengan nilai **"Anonimous"**. 3. **Handling NULL**: Beberapa kolom (khususnya kategori Reproduksi) akan bernilai `NULL` jika data tidak tersedia atau tidak relevan (misalnya data reproduksi pada pasien pria). ## 🔍 Potensi Analisis Dataset ini memungkinkan peneliti atau pengembang untuk melakukan simulasi skenario medis seperti: 1. **Profil Kesehatan**: Mengelompokkan pasien berdasarkan kombinasi faktor risiko kronis dan paparan di tempat kerja. 2. **Prediksi Diagnosis**: Menggunakan hasil laboratorium dan riwayat anamnesis untuk memprediksi diagnosis utama secara otomatis. 3. **Korelasi Kerja-Kesehatan**: Menganalisis dampak posisi ergonomis atau paparan kimia terhadap nilai laboratorium atau kategori IMT. 4. **Evaluasi Vaksinasi**: Memeriksa hubungan antara status vaksinasi dengan hasil laboratorium tertentu atau diagnosis akhir. --- **Catatan Penting:** Data ini bersifat **sintetis**. Pola statistik yang dihasilkan mungkin tidak mencerminkan populasi dunia nyata secara akurat. Struktur tabel yang lengkap disediakan semata-mata untuk simulasi analisis medis dan pelatihan model komputasi.
提供机构:
udeezz
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作