atenglens/taiwanese_english_translation
收藏Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/atenglens/taiwanese_english_translation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个台湾话(台罗拼音系统)和英语之间的圣经翻译数据集,包含了超过31,102个句子,每个句子对应圣经中的一节。数据集的结构为CSV格式,包含台罗拼音和英语两列。数据集被划分为训练集(80%)、验证集(10%)和测试集(10%)。数据来源于https://taigi.fhl.net/list.html,并进行了噪音清理。数据集支持的任务包括问答、文本生成、翻译等。
提供机构:
atenglens
原始信息汇总
数据集概述
数据集名称
- 名称: taiwanese_english_translation
- 别名: 台湾英语翻译
数据集描述
- 摘要: 包含台湾语和英语的圣经翻译(国家台湾圣经全罗版和世界英语圣经版)。每行对应圣经中的一节,可能包含多个句子。数据集总计超过31,102句(圣经中的31,102节)。
- 语言:
- 源语言: 台湾语(台罗拼音系统)
- 目标语言: 英语
数据集结构
- 文件格式: csv
- 数据字段: 台罗, 英语
- 数据分割: 训练集(80%),验证集(10%),测试集(10%)
数据集创建
- 源数据:
- 数据收集: 从网站https://taigi.fhl.net/list.html爬取
- 数据处理: 进行了常规噪音清理,所有台湾语名字已去连字符以辅助训练
- 数据限制: 已移除大量噪音,但可能仍存在一些噪音(额外标点、括号、数字、特殊字符、节注释)



