five

atenglens/taiwanese_english_translation

收藏
Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/atenglens/taiwanese_english_translation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个台湾话(台罗拼音系统)和英语之间的圣经翻译数据集,包含了超过31,102个句子,每个句子对应圣经中的一节。数据集的结构为CSV格式,包含台罗拼音和英语两列。数据集被划分为训练集(80%)、验证集(10%)和测试集(10%)。数据来源于https://taigi.fhl.net/list.html,并进行了噪音清理。数据集支持的任务包括问答、文本生成、翻译等。
提供机构:
atenglens
原始信息汇总

数据集概述

数据集名称

  • 名称: taiwanese_english_translation
  • 别名: 台湾英语翻译

数据集描述

  • 摘要: 包含台湾语和英语的圣经翻译(国家台湾圣经全罗版和世界英语圣经版)。每行对应圣经中的一节,可能包含多个句子。数据集总计超过31,102句(圣经中的31,102节)。
  • 语言:
    • 源语言: 台湾语(台罗拼音系统)
    • 目标语言: 英语

数据集结构

  • 文件格式: csv
  • 数据字段: 台罗, 英语
  • 数据分割: 训练集(80%),验证集(10%),测试集(10%)

数据集创建

  • 源数据:
    • 数据收集: 从网站https://taigi.fhl.net/list.html爬取
    • 数据处理: 进行了常规噪音清理,所有台湾语名字已去连字符以辅助训练
  • 数据限制: 已移除大量噪音,但可能仍存在一些噪音(额外标点、括号、数字、特殊字符、节注释)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作