five

台語文數位典藏資料庫

收藏
github2020-08-28 更新2024-05-31 收录
下载链接:
https://github.com/Taiwanese-Corpus/nmtl_2006_dadwt
下载链接
链接失效反馈
官方服务:
资源简介:
本資料庫包含臺語漢羅及全羅對應的語料,提供了原始文字檔、段落對齊和JSON格式資料,用于研究和分析台語文。

This database contains parallel corpora of Taiwanese Hokkien in both Han-Lo (Chinese characters mixed with Latin script) and Pe̍h-ōe-jī (fully Latin script) formats. It provides raw text files, paragraph-aligned data, and JSON-formatted resources, intended for research and analysis of Taiwanese Hokkien literature.
创建时间:
2016-01-30
原始信息汇总

台語文數位典藏資料庫概述

資料內容

本資料庫包含臺語漢羅及全羅對應的語料,主要分為以下幾個部分:

原始文字檔

  • 格式:plain text
  • 分類
    • kp:劇本
    • ks:歌詩
    • sb:散文
    • ss:小說
  • 目錄文件
    • pbk.xls
    • pbk_校對.xls(校對後的pbk.xls

段落對齊

  • 處理流程
    • 原始文字檔經過勘誤處理
    • 使用網站介面進行漢羅和全羅的段落對齊
    • 最終仍有大量句子未能對齊
  • 檔案格式:sql
  • 資料表
    • 原始段落資料
    • 改過段落資料
    • 原始逝資料
    • 改過逝資料

JSON格式資料

  • 轉換流程
    • 從sql資料轉換為csv格式
    • 再從csv轉換為json格式
  • 工具python3 csv2json.py

勘誤記錄

  • 部分原始資料存在缺失,已進行初步勘誤,但可能不完整。
  • 具體勘誤包括:
    • 劇本和散文中特定文件的內容缺失或文字錯誤
    • 目錄文件pbk.xls中的篇數與實際不符,已更新至pbk_校對.xls
搜集汇总
数据集介绍
main_image_url
构建方式
台語文數位典藏資料庫的构建基于國史館收集的臺語文資料,涵盖了劇本、歌詩、散文和小說等多种文本类型。原始資料以純文本形式存儲,並經過詳細的勘誤處理,確保資料的準確性和完整性。隨後,通過專用網站介面進行漢羅和全羅的段落對齊處理,並進一步細化至句子級別的對齊。最終,資料被轉換為SQL格式,並進一步轉化為JSON格式,以便於計算機處理和分析。
特点
該資料庫的特點在於其豐富的臺語文資料類型和多層次的資料處理流程。資料庫不僅包含了多種文學形式的臺語文資料,還通過人工和自動化相結合的方式,實現了漢羅和全羅文本的精確對齊。此外,資料庫提供了詳細的勘誤記錄和校對後的目錄,確保了資料的高質量和可靠性。JSON格式的資料轉換進一步提升了資料的可訪問性和處理效率。
使用方法
使用台語文數位典藏資料庫時,首先需要從原始文字檔開始,進行必要的勘誤和校對。隨後,利用提供的網站介面進行漢羅和全羅的段落對齊,並進一步細化至句子級別的對齊。資料庫支持SQL和JSON格式,用戶可以根據需要選擇合適的格式進行資料導入和處理。對於JSON格式的資料,用戶可以使用提供的Python腳本進行轉換,並利用生成的JSON文件進行進一步的分析和應用。
背景与挑战
背景概述
台語文數位典藏資料庫是由國史館與楊允言老師共同收集與整理的臺語文資料集,旨在保存與推廣臺語文化。該資料庫涵蓋了劇本、歌詩、散文和小說等多種文體,並提供了漢羅及全羅對應的語料,為語言學研究提供了豐富的資源。資料庫的建立時間可追溯至21世紀初,主要研究人員包括國史館的專業團隊及楊允言老師,其核心研究問題聚焦於臺語文的數位化保存與語言對齊技術。該資料庫對臺語文研究、語言學及文化遺產保護領域具有深遠影響,為學術界提供了重要的數據支持。
当前挑战
台語文數位典藏資料庫在構建與應用過程中面臨多重挑戰。首先,資料的完整性與準確性問題顯著,部分文本存在缺失或錯誤,需依賴人工校對與勘誤,耗時且易遺漏。其次,漢羅與全羅文本的段落與句子對齊技術難度較高,儘管已採用人工與程式結合的方式進行處理,仍有大量語句無法完全對齊,影響了後續的語言學分析與應用。此外,資料庫的格式轉換與存儲技術亦存在挑戰,需將原始文本轉換為SQL與JSON格式,以適應現代計算需求,這一過程對技術要求較高,且可能導致數據丟失或格式錯誤。
常用场景
经典使用场景
台語文數位典藏資料庫主要用於語言學研究,特別是對台語的語法、詞彙和語音進行深入分析。研究者可以利用該資料庫中的劇本、歌詩、散文和小說等文本,進行語料庫語言學的研究,探索台語的語言結構和演變。
衍生相关工作
基於台語文數位典藏資料庫,許多經典的研究工作得以展開。例如,研究者開發了台語語音合成系統,並發表了多篇關於台語語音和語法的學術論文。此外,該資料庫還促進了台語自然語言處理工具的開發,如台語詞性標注器和句法分析器,進一步推動了台語研究的深入發展。
数据集最近研究
最新研究方向
近年来,随着数字人文和计算语言学的快速发展,台语文数位典藏数据库在语言资源保护和方言研究领域引起了广泛关注。该数据库不仅为台语文的数字化保存提供了重要支持,还为语言学家和计算机科学家提供了丰富的语料资源。当前的研究方向主要集中在利用自然语言处理技术对台语文进行自动对齐和翻译,以及通过机器学习方法提升文本的自动校对和标注效率。此外,该数据库还被广泛应用于方言语音识别和合成技术的研究,推动了台语文在智能语音助手和方言教育中的应用。这些研究不仅有助于保护和传承台语文这一重要的文化遗产,也为多语言信息处理技术的发展提供了新的视角和挑战。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务