台語新詞辭庫
收藏github2025-09-29 更新2025-10-01 收录
下载链接:
https://github.com/kemdict/kemdict-data-pts-taigitv
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是公视台语台《台语新词辞库》的JSON副本,包含台语词汇及其拼音、中文解释和标签信息,以CC-BY 4.0授权开放使用。
This dataset is a JSON copy of the "Taiwanese Minnan Neologism Lexicon" from the Minnan Language Channel of Taiwan's Public Television Service (PTS). It contains Taiwanese Minnan vocabulary, its corresponding phonetic transcription, Chinese definitions and tag information, and is openly licensed for use under CC BY 4.0.
创建时间:
2025-09-28
原始信息汇总
公視「台語新詞辭庫」複本数据集概述
数据集来源
- 原始来源:https://www.taigitv.org.tw/taigi-words
- 复本仓库:https://github.com/kemdict/kemdict-data-pts-taigitv
数据集内容
- 数据格式:JSON格式
- 数据文件位置:
./data/scrape-<时间>.json - 数据内容:台语新词词汇
数据结构
typescript interface Word { id: number; title: string; pn: string[]; zh: string; tags: Tag[]; }
interface Tag { id: number; title: string; }
数据字段说明
- id:词汇编号
- title:词汇标题
- pn:拼音数组
- zh:中文释义
- tags:标签数组
授权信息
- 数据授权:CC-BY-4.0
- 代码授权:CC0
数据采集说明
- 采集方式:网页抓取
- 采集来源:https://www.taigitv.org.tw/taigi-words?page=1
- 未采集内容:读音声音档
搜集汇总
数据集介绍

构建方式
在语言资源数字化浪潮中,台語新詞辭庫通过自动化采集技术构建而成。该数据集源自公视台语台官方网站的词汇条目,采用网络爬虫技术逐页提取结构化数据,完整保留了每个词汇的编号、台语写法、台罗拼音数组、中文释义及分类标签。原始网页的语音资料虽未收录,但文本信息已通过时间戳标记的JSON文件实现标准化存储,确保了数据版本的可追溯性。
特点
作为当代台语词汇研究的重要语料,该数据集呈现出鲜明的多维特征。其核心价值在于系统收录了现代台语新创词汇与常用术语,每个词条均配备精准的台罗拼音标注与中文对照释义。通过精心设计的标签体系,词汇可按语义场与使用场景进行立体化分类,为语言变迁研究提供丰富维度。数据集采用开放授权模式,既保障学术使用的便利性,又体现对原创建者的知识产权尊重。
使用方法
在语言工程应用领域,使用者可通过解析时间戳命名的JSON文件直接获取结构化数据。数据集采用类型化设计规范,每个词条包含唯一标识符、词汇本体、拼音数组、中文解释及标签集合,支持现代编程语言的类型校验系统。研究人员可依据标签体系进行词汇分类检索,或通过拼音与中文对照开展跨语言研究,所有应用均需遵循CC-BY-40授权条款标注原始来源。
背景与挑战
背景概述
台語新詞辭庫由公視台語台於2023年創建,旨在系統性收錄現代台語詞彙與對應的華文釋義。該辭庫以數位化形式保存台語語言資產,填補了傳統辭典在當代語境下的空白。其核心研究問題聚焦於台語詞彙的標準化與現代化,透過收錄新興詞彙與專業術語,為語言學研究與教育應用提供重要資源。此辭庫的開放授權模式更促進了跨領域協作,對台語數位典藏與自然語言處理領域產生深遠影響。
当前挑战
在解決台語數位化保存問題時,面臨著新舊詞彙系統性整合的難題,包括方言變體規範化與書寫系統統一性等語言學挑戰。構建過程中需克服網絡爬取技術限制,例如動態網頁結構解析與多媒體資料同步處理。同時,詞條標註需兼顧語音特徵與語義關聯性,而跨語言對照的精確性亦成為影響資料品質的關鍵因素。
常用场景
经典使用场景
在语言资源稀缺的台语研究领域,该数据集为词汇学分析提供了系统化素材。研究者可基于其标注的台罗拼音与汉语释义,开展台语新词的音韵规律、构词特征及语义演变研究,尤其适用于对比分析台语与闽南语系其他方言的词汇异同。
实际应用
在文化传播与教育领域,该辞库可作为媒体机构制作台语节目的参考标准,辅助主持人准确使用新兴词汇。教育机构可将其整合至台语教材编写体系,帮助学习者系统掌握现代台语表达,推动语言活态传承。
衍生相关工作
基于该数据集的结构化特性,已有研究构建出台语词汇知识图谱,实现概念关联网络的可视化。后续工作进一步开发了结合该辞库的跨语言检索工具,并衍生出台语写作辅助系统,通过API接口为第三方应用提供词汇验证服务。
以上内容由遇见数据集搜集并总结生成



