five

閩南語書寫 - 數據集

收藏
github2026-04-27 更新2026-04-28 收录
下载链接:
https://github.com/hokkien-writing/dataset
下载链接
链接失效反馈
官方服务:
资源简介:
闽南语文字数字化项目,包含书籍、歌词等经过人工校注后的文本,可通过脚本导出原版与修改版。

The Minnan Language Text Digitization Project includes manually proofread and annotated texts such as books and lyrics, with both original and revised versions available for export via scripts.
创建时间:
2026-04-06
原始信息汇总

閩南語書寫數據集概述

專案目標

閩南語文字數位化專案,針對書籍、歌詞等原文經人工校注後,可透過腳本匯出原版與修改版。

數據集結構

主要目錄

  • books/:校注後的書籍來源(含編輯標記)
  • lyrics/:校注後的歌詞來源(含編輯標記)
  • clippings/:採集詞條(從書本或日常對話中摘錄的 CSV)
  • external/:外部資料集原始檔(由 sync_external.sh 同步)
  • export/:匯出輸出,包含:
    • books/(書籍匯出)
    • lyrics/(歌詞匯出)
    • clippings/(採集詞條匯出)
    • external/(外部資料集標準化 CSV)
  • scripts/:工具腳本(含匯出、轉換、測試等功能)

編輯標記規則

使用五種校勘修改標記:

標記 含義 原版輸出 修改版輸出
~~餮~~ 刪除,不需改正 (移除)
~~餮~~(餐) 刪除並改正為括號內文字
~~小暑~~() 刪除但不知如何改正 小暑 〔〕
++等++ 新增文字 (移除)
++++ 需要新增但暫無合適文字 (移除) 〔〕
人[訓] 訓用字 人[訓]
丕[音] 借音字 丕[音]

數據格式

Markdown 匯出

每個來源檔案產生三個版本:

  • *_original.md:原版(保留原始文字)
  • *_modified.md:修改版(套用所有校勘修改)
  • *.csv:詞句列表

CSV 匯出欄位

  • puj:潮州白話字(校注後)
  • puj_orig:潮州白話字(原始)
  • poj:白話字(校注後)
  • poj_orig:白話字(原始)
  • tl:台灣話羅馬字(校注後)
  • tl_orig:台灣話羅馬字(原始)
  • dp:潮州話拼音(校注後)
  • dp_orig:潮州話拼音(原始)
  • bp:閩南話拼音(校注後)
  • bp_orig:閩南話拼音(原始)
  • han:漢字(校注後)
  • han_orig:漢字(原始)
  • en:英文翻譯(校注後)
  • en_orig:英文翻譯(原始)
  • zh_CN:普通話翻譯(校注後)
  • zh_CN_orig:普通話翻譯(原始)
  • zh_TW:國語翻譯(校注後)
  • zh_TW_orig:國語翻譯(原始)
  • source:來源(書名 > 章節)

採集詞條格式

CSV 表頭包含:

  • latn_norm:標準化羅馬字(帶調號數字,如 ka2-thiann3
  • han:漢字,多個異體用 | 分隔
  • zh_TW:繁體中文釋義
  • zh_CN:簡體中文釋義
  • en:英文釋義

檔名前綴 teochewhokkien 決定羅馬字轉換為 PUJ 或 POJ。

支援的羅馬字系統

支援 POJ、TL、PUJ、BP、DP 等系統間的互相轉換,以 LATN_NORM 為中介自動鏈式轉換。

收錄內容類別

  • 書籍
  • 歌詞
  • 採集詞條
  • 外部資料集

授權

  • 專案程式碼:MIT License
  • 外部資料集:包含 CC BY-SA 4.0、CC BY-NC-SA 3.0 TW、CC BY-ND 3.0 TW、CC0 等不同授權
搜集汇总
数据集介绍
main_image_url
构建方式
閩南語書寫數據集的構築,源自對書籍、歌詞等文本的數位化校注工作。原始文本經由人工逐字校勘,並在檔案中嵌入五種專用編輯標記,分別表示刪除、刪除並改正、刪除但留白、新增文字以及需要新增但暫缺文字,同時輔以「訓用字」與「借音字」的標注。這些帶有標記的校注版Markdown文件,通過專屬匯出腳本,可自動生成保留原始面貌的「原版」與套用所有修訂的「修改版」兩種輸出,從而完整記錄了從源文到訂正版的轉變歷程。
特点
該數據集的核心特色,在於其精密且系統化的文本變遷記錄機制。透過統一的編輯標記體系,不僅忠實保存了原文的原始樣貌,更讓每一次的修正軌跡都有跡可循,為語言研究提供了寶貴的歷時性對照素材。此外,數據集涵蓋了潮州白話字、白話字、台灣話羅馬字、潮州話拼音、閩南話拼音等多種羅馬字系統,並支持這些系統間的相互轉換,極大豐富了跨系統語言比對與應用的可能性,成為閩南語數位人文研究的堅實基石。
使用方法
使用此數據集時,可透過執行專案根目錄下的「build.sh」一鍵建置腳本,自動將校注版文件匯出至「export」目錄,每個來源文件會產生原版與修改版兩個Markdown版本。若要獲取結構化數據,則需確保在「scripts/processors」目錄中存在對應的處理器(Processor類別),執行後即可產出包含多種羅馬字、漢字及中英文翻譯對照的CSV檔案。對於日常對話或書本中採集的詞條,則可直接整理為標註了標準化羅馬字、漢字異體及多語釋義的CSV格式,置入「clippings」目錄,其異體內容在匯出時會自動拆分為獨立行項。
背景与挑战
背景概述
閩南語作為漢語族中的重要語言,擁有豐富的口語傳統與獨特的書寫系統,然而其數位化進程長期滯後,導致語料資源稀缺、書寫規範紊亂。該數據集由一群致力於閩南語文字保存的研究者創建,旨在系統性地蒐集、校注與標準化閩南語書面語料。數據集涵蓋書籍、歌詞及日常對話採集的詞條,並整合多種羅馬字系統(如白話字、台灣話羅馬字、潮州白話字等),透過人工校注與腳本匯出原版與修改版。自2023年發布以來,該數據集為語言學、自然語言處理及數位人文等領域提供了珍貴的語言資源,顯著推進了閩南語的文字數位化與跨系統轉換研究。
当前挑战
該數據集面臨的核心挑戰在於閩南語書寫系統的多樣性與規範化困境。不同地區(如台灣、潮汕、福建)使用的羅馬字系統與漢字書寫習慣存在顯著差異,整合這些系統並確保轉換準確性是一項艱鉅任務。構建過程中,人工校注需處理大量異體字、訓用字與借音字,且缺乏統一的校勘標準,導致標記規則的迭代與維護成本高昂。此外,從書籍與對話中採集詞條時,如何區分標準化詞彙與口語變體、如何處理缺漏文字(如以「++++」標記的待補位置),均對數據集的完整性與一致性構成嚴峻考驗,限制了其在機器學習模型訓練中的直接應用效能。
常用场景
经典使用场景
在當代數位人文與語言保存的交叉領域中,該數據集被廣泛運用於閩南語書面語的標準化校勘與語料庫建構。研究者透過其精心設計的編輯標記系統,能夠系統性地處理大量古籍、歌詞等文本中的訓用字與借音字,並同時產出保留原始風貌的「原版」與經過規範化處理的「修改版」文本。此雙軌輸出機制為後續的語言變異分析、文字演變探討以及書寫系統比較提供了堅實且可追溯的數據基礎,特別在探討台灣話、潮州話等閩南語分支的書面語規範化歷程中扮演關鍵角色。
解决学术问题
該數據集有效回應了閩南語書寫體系長期存在的正字法混亂與語料數位化標準缺失兩大核心學術困境。透過引入包含刪除、增補、訓用與借音標記在內的結構化物件模型,它不僅解決了異體字與同音假借字在數位環境中難以精確標註與轉換的技術難題,更為方言文本的跨系統羅馬拼音轉寫(如POJ、TL、PUJ等)建立了可驗證的標準化通路。其深遠意義在於,它搭建了一座從散落的口語採集到可供機器學習與計算語言學分析的結構化語料庫之間的橋樑,極大地促進了閩南語資訊處理與語言復振研究的科學化發展。
衍生相关工作
該數據集的開創性工作直接催生了一系列後續研究。在計算語言學領域,有學者以其標準化語料為基礎,開發了專用於閩南語的序列標註與命名實體識別模型,實現了對混雜書寫系統的有效解析。在語言規劃方面,基於其編輯標記規則的擴展,後繼研究者建立了針對台灣閩南語與潮州閩南語的書寫規範比較框架,產出了多份具有政策參考價值的比較研究報告。此外,該專案的「採集詞條」子資料集也衍生出多個專注於特定方言區(如金門、馬祖)詞彙變體的地圖繪製與傳播路徑分析工作,進一步拓展了其作為語言資源的學術影響半徑。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务