iCorpus 臺華平行新聞語料庫漢字臺羅版

github2023-08-02 更新2024-05-31 收录

下载链接：

https://github.com/Taiwanese-Corpus/icorpus_ka1_han3-ji7

下载链接

链接失效反馈

官方服务：

资源简介：

本專案補充2008/11/06到2014/3/14文章，於取出文章後，在2014內正規化。語料包括原始華語、斷詞華語、原始教羅音標、自動標漢字、自動標音標、自動標人工改漢字和自動標人工改音標。

This project supplements articles from November 6, 2008, to March 14, 2014. After extracting the articles, they were normalized within the year 2014. The corpus includes original Chinese, segmented Chinese, original phonetic transcription (Taiwanese Romanization System), automatically annotated Chinese characters, automatically annotated phonetic transcription, automatically annotated manually revised Chinese characters, and automatically annotated manually revised phonetic transcription.

创建时间：

2015-07-23

原始信息汇总

数据集名称

iCorpus 臺華平行新聞語料庫漢字臺羅版

数据集描述

本数据集是对原始的iCorpus 臺華平行新聞語料庫的补充，增加了2008/11/06至2014/3/14期间的文章内容，包括汉字和臺羅音標。

数据集内容

原始語料
- 原始華語：網路上華語新聞語句
- 斷詞華語：原始華語經中研院CKIP斷詞結果
- 原始教羅音標：由何澤政翻譯的臺語語句
正規化語料
- 自動標漢字：由程式自動化依辭典自原始華語和原始教羅音標挑出臺華共同詞
- 自動標音標：由程式自動化將原始教羅音標轉成臺羅
- 自動標人工改漢字：由人工正規化自動標漢字
- 自動標人工改音標：由人工正規化自動標音標

授權信息

本数据集由薛丞宏製作，以創用CC 姓名標示 4.0 國際授權條款釋出。

数据集使用

產生yaml格式資料 bash sudo apt-get install -y python-virtualenv python3 python3-dev libyaml-dev virtualenv --python=python3 venv . venv/bin/activate pip install pyyaml python 產生臺灣言語資料庫格式.py
匯入資料 bash python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml

搜集汇总

数据集介绍

构建方式

iCorpus 臺華平行新聞語料庫漢字臺羅版的构建过程始于对原始华语新闻语料的收集，这些语料来源于网络上的华语新闻语句。随后，通过中研院的CKIP工具对这些原始华语进行了断词处理。在此基础上，何泽政翻译的台语语句被用作原始教罗音标。为了进一步丰富语料库，开发团队利用自动化程序从原始华语和原始教罗音标中挑选出台华共同词，并自动转换为台罗音标。最后，通过人工校对，确保了汉字的准确性和音标的规范性。

特点

该数据集的特点在于其独特的双语平行结构，即华语与台语的对照。它不仅包含了原始华语新闻语句和其断词结果，还提供了由人工翻译的台语教罗音标。此外，数据集通过自动化程序生成了自动标注的汉字和音标，并经过人工校对，确保了数据的高质量和准确性。这种结构为语言学研究提供了丰富的资源，尤其是在双语对比和语言转换领域。

使用方法

使用iCorpus 臺華平行新聞語料庫漢字臺羅版时，首先需要安装必要的Python环境和依赖库，如pyyaml。用户可以通过运行特定的Python脚本，将数据集转换为臺灣言語資料庫所需的yaml格式。随后，在臺灣言語資料庫的项目目录下，使用命令行工具导入转换后的数据。这一过程不仅简化了数据的集成，还使得研究者能够轻松地在臺灣言語資料庫中利用这些数据进行进一步的分析和研究。

背景与挑战

背景概述

iCorpus 臺華平行新聞語料庫漢字臺羅版是由薛丞宏於2014年製作的一個語言學研究資源，旨在補充2008年至2014年間的新聞文章，並將其轉換為漢字和臺羅音標格式。該數據集基於原始的iCorpus 臺華平行新聞語料庫，後者僅包含教羅音標。此數據集的開發得到了中研院CKIP斷詞系統的支持，並通過自動化和人工校正的方式，對原始華語新聞和臺語翻譯進行了正規化處理。這一資源對於研究臺灣語言學、機器翻譯和自然語言處理領域具有重要價值，特別是在處理多語言平行語料和音標轉換方面。

当前挑战

iCorpus 臺華平行新聞語料庫漢字臺羅版的構建面臨多項挑戰。首先，從原始華語新聞到臺語翻譯的轉換需要精確的語言對齊和語義匹配，這在處理多語言平行語料時尤為複雜。其次，自動化轉換過程中，如何確保漢字和臺羅音標的準確性是一個技術難題，尤其是在處理方言和口語表達時。此外，人工校正階段需要大量的語言學專家和時間投入，以確保數據的高質量和一致性。這些挑戰不僅考驗了數據集的構建技術，也對後續的應用研究提出了更高的要求。

常用场景

经典使用场景

iCorpus 臺華平行新聞語料庫漢字臺羅版主要应用于语言学和自然语言处理领域，特别是在台湾语言的研究中。该数据集通过提供汉字符号和台罗音标的平行语料，为研究者提供了一个丰富的资源，用于分析台湾语言的语音、语法和词汇特征。

实际应用

在实际应用中，iCorpus 臺華平行新聞語料庫漢字臺羅版被广泛用于开发语言学习工具和自动翻译系统。教育机构利用这一资源来设计更有效的语言教学材料，而技术公司则利用它来训练更精确的语音识别和文本翻译算法，从而提升用户体验和服务质量。

衍生相关工作

基于iCorpus 臺華平行新聞語料庫漢字臺羅版，已经衍生出多项重要的研究工作。例如，研究者开发了新的算法来改进台湾语言的自动分词和音标转换技术。此外，该数据集还支持了多项关于台湾语言与华语之间语言对比和翻译策略的研究，为语言学领域贡献了宝贵的知识和数据。

以上内容由遇见数据集搜集并总结生成