five

adi-gov-tw/Taiwan-Tongues-ASR-CE-dataset-hakka

收藏
Hugging Face2025-12-22 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/adi-gov-tw/Taiwan-Tongues-ASR-CE-dataset-hakka
下载链接
链接失效反馈
官方服务:
资源简介:
--- task_categories: - automatic-speech-recognition language: - zh pretty_name: Taiwan-Tongues-ASR-CE size_categories: - 1K<n<10K license: other tags: - dginfra --- # Taiwan-Tongues-ASR-CE-dataset-hakka 本資料集為 [Taiwan-Tongues-ASR-CE](https://github.com/adi-gov-tw/Taiwan-Tongues-ASR-CE) 專案所使用的預訓練資料,透過 **[WebDataset](https://github.com/webdataset/webdataset)** 格式打包,並上傳至 Hugging Face 以便研究人員與開發者自由取用。 --- ## 📂 Dataset 結構 本資料集分為 **Training** 與 **Test** 兩個子集,均以 WebDataset `tar` 檔案形式存放: * **Training set** (WebDataset format) ``` train/train-000000.tar train/train-000001.tar ... ``` * **Test set** (WebDataset format) ``` test/test-000000.tar ... ``` * **tsv set** ``` train.tsv test.tsv ... ``` 每個 `tar` 內部均包含對應的音檔與標註,方便直接搭配 WebDataset 與 PyTorch / Hugging Face `datasets` 進行訓練與測試。 --- ## 🏷️ 資料結構 (Sample) 每筆資料會對應到一個 `Sample` 物件,結構如下: ```python class Sample: item_id: int # 資料編號 transcript: str # 語音對應文字 audio_path: Path # 音檔的實際路徑 audio_rel: Path # 相對於資料集的路徑 duration: float # 音檔長度(秒) ``` * `item_id`:唯一識別碼 * `transcript`:語音標註文字 * `audio_path`:完整檔案路徑 * `audio_rel`:相對路徑,方便跨平台載入 * `duration`:音檔秒數 --- ## 🧾 資料來源與用途 * 資料集來源: [Taiwan-Tongues-ASR-CE](https://github.com/adi-gov-tw/Taiwan-Tongues-ASR-CE) 專案收集與處理的語音語料。 * 用途: 本資料集主要用於 **Automatic Speech Recognition (ASR)** 系統的預訓練與評測,特別聚焦於台灣多樣的語音特徵。 --- ## 🚀 使用方式 1. 推薦方式:WebDataset format 在 Python 中可透過 [webdataset](https://github.com/webdataset/webdataset) 或 Hugging Face `datasets` 載入: ```python import webdataset as wds dataset = wds.WebDataset("train/train-{000000..000100}.tar") for sample in dataset: audio = sample["audio_path"] # 音檔路徑 text = sample["transcript"] # 對應語音標註文字 print(text) ``` 或使用 Hugging Face `datasets`: ```python from datasets import load_dataset ds = load_dataset("adi-gov-tw/Taiwan-Tongues-ASR-CE", split="train") print(ds[0]) ``` --- 2. 備用方式:TSV metadata 如果不使用 WebDataset,也可以透過 train.tsv / test.tsv 讀取: ```python import pandas as pd df = pd.read_csv("train.tsv", sep="\t") print(df.head()) # 欄位包含:item_id, transcript, audio_rel, duration ``` 建議:使用 WebDataset format,因為能直接搭配深度學習框架進行資料流式載入,同時保留 metadata 結構化資訊。 ## 🙌 貢獻與回饋 本資料集開放自由取用,歡迎使用於研究與開發。 若有任何問題或改進建議,請透過 [GitHub Issues](https://github.com/adi-gov-tw/Taiwan-Tongues-ASR-CE/issues) 回饋,或於 Hugging Face 上提交貢獻。 --- ## 📜 授權 本資料集依照原專案授權條款釋出,使用者需遵守相關規範。
提供机构:
adi-gov-tw
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作