aplycaebous/BanglaTLit
收藏Hugging Face2024-10-19 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/aplycaebous/BanglaTLit
下载链接
链接失效反馈官方服务:
资源简介:
BanglaTLit是一个用于罗马化孟加拉语回译的基准数据集,包含两个主要部分:BanglaTLit-PT和BanglaTLit。BanglaTLit-PT是一个预训练语料库,包含245727个罗马化孟加拉语样本,用于进一步预训练语言模型。BanglaTLit是BanglaTLit-PT的一个子集,包含42705个罗马化孟加拉语及其对应的孟加拉语回译对。数据集中的每个数据点都有一个唯一的标识符,包括罗马化孟加拉语文本和对应的孟加拉语回译文本。摘要统计信息提供了字符长度、单词计数等方面的详细统计量。
BanglaTLit is a benchmark dataset for back-transliteration of romanized Bangla, containing a pre-training corpus with 245727 romanized Bangla samples and a subset with 42705 pairs of romanized Bangla and its corresponding Bengali back-transliteration.
提供机构:
aplycaebous



