adi-gov-tw/Taiwan-Tongues-ASR-CE-dataset-hakka
收藏Hugging Face2025-12-22 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/adi-gov-tw/Taiwan-Tongues-ASR-CE-dataset-hakka
下载链接
链接失效反馈官方服务:
资源简介:
---
task_categories:
- automatic-speech-recognition
language:
- zh
pretty_name: Taiwan-Tongues-ASR-CE
size_categories:
- 1K<n<10K
license: other
tags:
- dginfra
---
# Taiwan-Tongues-ASR-CE-dataset-hakka
本資料集為 [Taiwan-Tongues-ASR-CE](https://github.com/adi-gov-tw/Taiwan-Tongues-ASR-CE) 專案所使用的預訓練資料,透過 **[WebDataset](https://github.com/webdataset/webdataset)** 格式打包,並上傳至 Hugging Face 以便研究人員與開發者自由取用。
---
## 📂 Dataset 結構
本資料集分為 **Training** 與 **Test** 兩個子集,均以 WebDataset `tar` 檔案形式存放:
* **Training set** (WebDataset format)
```
train/train-000000.tar
train/train-000001.tar
...
```
* **Test set** (WebDataset format)
```
test/test-000000.tar
...
```
* **tsv set**
```
train.tsv
test.tsv
...
```
每個 `tar` 內部均包含對應的音檔與標註,方便直接搭配 WebDataset 與 PyTorch / Hugging Face `datasets` 進行訓練與測試。
---
## 🏷️ 資料結構 (Sample)
每筆資料會對應到一個 `Sample` 物件,結構如下:
```python
class Sample:
item_id: int # 資料編號
transcript: str # 語音對應文字
audio_path: Path # 音檔的實際路徑
audio_rel: Path # 相對於資料集的路徑
duration: float # 音檔長度(秒)
```
* `item_id`:唯一識別碼
* `transcript`:語音標註文字
* `audio_path`:完整檔案路徑
* `audio_rel`:相對路徑,方便跨平台載入
* `duration`:音檔秒數
---
## 🧾 資料來源與用途
* 資料集來源:
[Taiwan-Tongues-ASR-CE](https://github.com/adi-gov-tw/Taiwan-Tongues-ASR-CE) 專案收集與處理的語音語料。
* 用途:
本資料集主要用於 **Automatic Speech Recognition (ASR)** 系統的預訓練與評測,特別聚焦於台灣多樣的語音特徵。
---
## 🚀 使用方式
1. 推薦方式:WebDataset format
在 Python 中可透過 [webdataset](https://github.com/webdataset/webdataset) 或 Hugging Face `datasets` 載入:
```python
import webdataset as wds
dataset = wds.WebDataset("train/train-{000000..000100}.tar")
for sample in dataset:
audio = sample["audio_path"] # 音檔路徑
text = sample["transcript"] # 對應語音標註文字
print(text)
```
或使用 Hugging Face `datasets`:
```python
from datasets import load_dataset
ds = load_dataset("adi-gov-tw/Taiwan-Tongues-ASR-CE", split="train")
print(ds[0])
```
---
2. 備用方式:TSV metadata
如果不使用 WebDataset,也可以透過 train.tsv / test.tsv 讀取:
```python
import pandas as pd
df = pd.read_csv("train.tsv", sep="\t")
print(df.head())
# 欄位包含:item_id, transcript, audio_rel, duration
```
建議:使用 WebDataset format,因為能直接搭配深度學習框架進行資料流式載入,同時保留 metadata 結構化資訊。
## 🙌 貢獻與回饋
本資料集開放自由取用,歡迎使用於研究與開發。
若有任何問題或改進建議,請透過 [GitHub Issues](https://github.com/adi-gov-tw/Taiwan-Tongues-ASR-CE/issues) 回饋,或於 Hugging Face 上提交貢獻。
---
## 📜 授權
本資料集依照原專案授權條款釋出,使用者需遵守相關規範。
提供机构:
adi-gov-tw



