Kanzoet97/Karum
收藏Hugging Face2025-12-13 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Kanzoet97/Karum
下载链接
链接失效反馈官方服务:
资源简介:
英语-卡拉卡尔帕克语平行语料库是一个高质量的数据集,包含10,441个对齐的英语和卡拉卡尔帕克语(kaa)句子对。该数据集旨在提升卡拉卡尔帕克语在大型AI模型(LLMs)和神经机器翻译(NMT)系统中的表示能力和生成能力,使其能够更好地理解和生成卡拉卡尔帕克语文本。语料库使用官方的拉丁字母书写。
* 语言:英语(en)、卡拉卡尔帕克语(kaa)
* 格式:CSV(逗号分隔值)
* 许可证:MIT
* 书写:拉丁字母
English-Karakalpak Parallel Corpus is a high-quality dataset containing 10,441 aligned sentence pairs in English and Karakalpak (kaa). This dataset is designed to advance the representation and capability of the Karakalpak language in large-scale AI models (LLMs) and Neural Machine Translation (NMT) systems, enabling them to better understand and generate Karakalpak text. The corpus utilizes the official Latin script.
* Language(s): English (en), Karakalpak (kaa)
* Format: CSV (Comma-Separated Values)
* License: MIT
* Script: Latin
提供机构:
Kanzoet97



