five

Kanzoet97/Karum

收藏
Hugging Face2025-12-13 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Kanzoet97/Karum
下载链接
链接失效反馈
官方服务:
资源简介:
英语-卡拉卡尔帕克语平行语料库是一个高质量的数据集,包含10,441个对齐的英语和卡拉卡尔帕克语(kaa)句子对。该数据集旨在提升卡拉卡尔帕克语在大型AI模型(LLMs)和神经机器翻译(NMT)系统中的表示能力和生成能力,使其能够更好地理解和生成卡拉卡尔帕克语文本。语料库使用官方的拉丁字母书写。 * 语言:英语(en)、卡拉卡尔帕克语(kaa) * 格式:CSV(逗号分隔值) * 许可证:MIT * 书写:拉丁字母

English-Karakalpak Parallel Corpus is a high-quality dataset containing 10,441 aligned sentence pairs in English and Karakalpak (kaa). This dataset is designed to advance the representation and capability of the Karakalpak language in large-scale AI models (LLMs) and Neural Machine Translation (NMT) systems, enabling them to better understand and generate Karakalpak text. The corpus utilizes the official Latin script. * Language(s): English (en), Karakalpak (kaa) * Format: CSV (Comma-Separated Values) * License: MIT * Script: Latin
提供机构:
Kanzoet97
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作