five

Jaal047/profanity-speech-suroboyoan

收藏
Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Jaal047/profanity-speech-suroboyoan
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含泗水方言中带有粗话的对话录音,每条录音都配有相应的文本转录。数据集旨在支持使用语音到文本技术对泗水方言中的粗话进行检测的研究和开发。数据集包括音频文件和文本转录两部分,音频文件为WAV格式,采样率为16 kHz,文本转录为纯文本格式。

该数据集包含泗水方言中带有粗话的对话录音,每条录音都配有相应的文本转录。数据集旨在支持使用语音到文本技术对泗水方言中的粗话进行检测的研究和开发。数据集包括音频文件和文本转录两部分,音频文件为WAV格式,采样率为16 kHz,文本转录为纯文本格式。
提供机构:
Jaal047
原始信息汇总

Dataset Audio Perkataan Vulgar Bahasa Jawa Dialek Surabaya

Deskripsi

Dataset ini berisi audio rekaman percakapan dalam bahasa Jawa dialek Surabaya yang mengandung perkataan vulgar. Setiap rekaman dilengkapi dengan transkripsi teks yang sesuai. Dataset ini dibuat untuk mendukung analisis dan pengembangan dalam bidang deteksi perkataan vulgar dalam bahasa Jawa dialek Surabaya menggunakan teknologi speech-to-text (STT).

Isi

Dataset ini terdiri dari dua bagian utama:

  1. Audio: Direktori ini berisi file audio (.wav) yang berisi rekaman percakapan. Setiap file audio dilengkapi dengan label unik.
  2. Transkripsi: File teks yang sesuai dengan setiap rekaman audio. Transkripsi ini mencakup isi percakapan, termasuk perkataan vulgar yang terdapat di dalamnya.

Format Data

  • Audio: File audio direkam dalam format WAV dengan sampling rate 16 kHz.
  • Transkripsi: File teks berisi transkripsi dari percakapan dalam format teks biasa.

Lisensi

Dataset ini dilisensikan di bawah Lisensi Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Pengguna diperbolehkan untuk menggunakan, mendistribusikan, dan memodifikasi dataset ini dengan syarat memberikan atribusi kepada pemilik dataset dan membagikannya dengan lisensi yang sama jika Anda memodifikasinya.

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作