Jaal047/profanity-speech-suroboyoan
收藏Dataset Audio Perkataan Vulgar Bahasa Jawa Dialek Surabaya
Deskripsi
Dataset ini berisi audio rekaman percakapan dalam bahasa Jawa dialek Surabaya yang mengandung perkataan vulgar. Setiap rekaman dilengkapi dengan transkripsi teks yang sesuai. Dataset ini dibuat untuk mendukung analisis dan pengembangan dalam bidang deteksi perkataan vulgar dalam bahasa Jawa dialek Surabaya menggunakan teknologi speech-to-text (STT).
Isi
Dataset ini terdiri dari dua bagian utama:
- Audio: Direktori ini berisi file audio (.wav) yang berisi rekaman percakapan. Setiap file audio dilengkapi dengan label unik.
- Transkripsi: File teks yang sesuai dengan setiap rekaman audio. Transkripsi ini mencakup isi percakapan, termasuk perkataan vulgar yang terdapat di dalamnya.
Format Data
- Audio: File audio direkam dalam format WAV dengan sampling rate 16 kHz.
- Transkripsi: File teks berisi transkripsi dari percakapan dalam format teks biasa.
Lisensi
Dataset ini dilisensikan di bawah Lisensi Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Pengguna diperbolehkan untuk menggunakan, mendistribusikan, dan memodifikasi dataset ini dengan syarat memberikan atribusi kepada pemilik dataset dan membagikannya dengan lisensi yang sama jika Anda memodifikasinya.



