vrclc/IndoNLP-Transliteration-ml

Name: vrclc/IndoNLP-Transliteration-ml
Creator: vrclc
Published: 2024-12-13 05:39:54
License: 暂无描述

Hugging Face2024-12-13 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/vrclc/IndoNLP-Transliteration-ml

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于罗马化到马拉雅拉姆语脚本的音译任务，数据来源于Dakshina和Aksharantar两个主要数据集。Dakshina提供了186,000个罗马化单词对和58,400个词典条目，而Aksharantar则提供了4.3百万个单词对。这些数据用于训练和评估音译模型，评估指标包括字符错误率（CER）、单词错误率（WER）和BLEU分数。

This dataset is used for the task of transliterating Romanized text to native Malayalam script. The dataset includes transliteration pairs from Dakshina and Aksharantar for training and evaluating models. The Dakshina dataset contains 186 thousand Romanized to Malayalam transliteration pairs and 58.4 thousand lexicon entries, while the Aksharantar dataset contains 4.3 million transliteration pairs. The evaluation results show the Character Error Rate (CER), Word Error Rate (WER), and BLEU scores on two test sets.

提供机构：

vrclc

5,000+

优质数据集

54 个

任务类型

进入经典数据集