台語、族語、客語的語料清單、彙整

github2024-02-26 更新2024-05-31 收录

下载链接：

https://github.com/Taiwanese-Corpus/hue7jip8

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了台語、族語、客語的多种语料，详细记录了每个语料库的形式（如全漢、全羅、漢羅等）、句数或段数，以及语料的来源和使用方式。

This dataset encompasses a variety of corpora in Taiwanese, indigenous languages, and Hakka. It meticulously documents the form of each corpus (such as fully Chinese, fully Romanized, or a mix of Chinese and Romanized), the number of sentences or paragraphs, as well as the source and usage of the corpora.

创建时间：

2017-01-04

原始信息汇总

数据集概述

台语语料库

臺灣閩南語常用詞辭典-詞條
- 形式：全漢、全羅
- 句數：28830（2018/07/18）
- 語料来源：Github
臺灣閩南語常用詞辭典-例句
- 形式：全漢、全羅
- 句數：13835（2018/07/05）
- 語料来源：Github
TGB通訊
- 形式：漢羅、華語平行語料
- 句數：35017（2018/07/05）
- 語料来源：Github
iCorpus台華平行新聞語料庫
- 形式：全羅、華語平行語料
- 句數：83544（2018/07/05）
- 語料来源：Github
教育部詞彙分級計劃
- 形式：全漢、全羅
- 句數：61354句（2018/07/05）
- 語料来源：API
台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計
- 形式：漢羅抑是全羅
- 段數：193071段，其中漢羅128505段、全羅64566段（2018/07/24）
- 語料来源：Github
台語文數位典藏資料庫
- 形式：漢羅、全羅
- 段數：67005段，其中62246段對會齊，4759段無法度對齊就用羅馬字（2018/07/30）
- 語料来源：Github
教育部臺灣閩南語字詞頻調查工作
- 形式：漢羅、全羅
- 段數：59300段，其中53593段對會齊，5707段無法度對齊就用羅馬字（2018/07/24）
- 語料来源：Github
白話字文獻館
- 形式：漢羅、全羅
- 段數：43493段，其中31195段對會齊，12298段無法度對齊就用羅馬字（2018/07/31）
- 語料来源：Github
台灣植物名彙
- 形式：羅馬字、華語漢字
- 句數：1770詞（2019/07/22）
- 語料来源：Github
台灣白話基礎語句
- 形式：羅馬字、華語漢字
- 句數：6515詞翻譯對照（2019/07/22）
- 語料来源：Github

族语语料库

族語辭典
- 語料来源：Github
族語E樂園
- 語料来源：Github
阿美語方敏英字典Virginia Feys Amis Dictionary
- 語料来源：Github

客家话语料库

教育部臺灣客家語常用詞辭典
- 語料来源：Github
客語能力認證資料檔
- 語料来源：Github

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个来源的语料库构建而成，涵盖了台语、族语和客语的多种语言资源。具体构建过程包括从公开的词典、新闻语料库、教育资料以及历史文献中提取数据，并通过自动化脚本进行格式转换和整理。例如，台语部分的数据来源于《臺灣閩南語常用詞辭典》和《iCorpus台華平行新聞語料庫》，族语部分则从《族語辭典》和《阿美語方敏英字典》中提取。所有数据均经过标准化处理，以确保格式一致性和可用性。

特点

该数据集的特点在于其多样性和广泛性，涵盖了台语、族语和客语的多种语言形式，包括全汉、全罗、汉罗等不同书写方式。数据集中包含了大量的平行语料，如台语与华语的对照文本，以及丰富的词汇和例句资源。此外，数据集还提供了音档资源，支持语音合成模型的训练。所有数据均以结构化的形式存储，便于研究人员进行进一步的分析和应用。

使用方法

该数据集的使用方法主要通过Python脚本进行操作，用户可以通过命令行工具导入和管理不同来源的语料。例如，使用`python manage.py`命令可以导入《臺灣閩南語常用詞辭典》的词条和例句，或者导入《iCorpus台華平行新聞語料庫》的平行语料。数据集还支持音档的下载和转换，用户可以根据需要调整音档的采样率。此外，数据集提供了详细的文档和示例代码，帮助用户快速上手并进行定制化的数据处理。

背景与挑战

背景概述

台語、族語、客語的語料清單、彙整数据集由台湾语料库（Taiwanese-Corpus）项目组创建，旨在整合和标准化台湾本土语言的语料资源。该数据集涵盖了台湾闽南语、客家语以及原住民族语言的多种语料，包括词典、例句、新闻语料等。数据集的核心研究问题在于如何通过系统化的语料收集与整理，推动台湾本土语言的自然语言处理研究与应用。自2018年以来，该数据集在语言学研究、语音合成、机器翻译等领域发挥了重要作用，成为台湾本土语言数字化的重要基石。

当前挑战

该数据集在构建过程中面临多重挑战。首先，台湾本土语言的多样性与复杂性使得语料的标准化处理变得尤为困难，尤其是在不同方言之间的转换与对齐上。其次，语料的来源广泛且格式不一，从纸质文献到电子文档，需经过复杂的数字化与结构化处理。此外，数据集的构建还受到语言资源稀缺性的限制，尤其是原住民族语言的语料收集与整理工作尤为艰巨。在应用层面，如何利用这些语料进行有效的自然语言处理任务，如语音合成与机器翻译，仍需进一步的技术突破与算法优化。

常用场景

经典使用场景

在语言学和自然语言处理领域，该数据集被广泛应用于台语、族语和客语的语料分析。研究者通过该数据集进行语言模型的训练和优化，特别是在语音合成、机器翻译和文本生成等任务中，该数据集提供了丰富的语料支持。其多样化的语料形式（如全汉、全罗、汉罗等）为多语言处理任务提供了坚实的基础。

衍生相关工作

该数据集衍生了许多经典的自然语言处理工作，如基于台语和客语的语音合成模型、多语言机器翻译系统以及语言资源库的构建。例如，研究者利用该数据集开发了台语-华语平行语料库，显著提升了台语翻译的准确性和流畅性。此外，该数据集还推动了台语、族语和客语的语言资源标准化工作，为后续研究提供了重要的数据基础。

数据集最近研究