bekan/english_karakalpak_parallel_corpus_v7

Name: bekan/english_karakalpak_parallel_corpus_v7
Creator: bekan
Published: 2026-04-03 22:40:35
License: 暂无描述

Hugging Face2026-04-03 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/bekan/english_karakalpak_parallel_corpus_v7

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en - kaa license: mit task_categories: - translation size_categories: - 10K<n<100K tags: - machine-translation - nmt - llm - karakalpak - ai-training dataset_info: features: - name: en dtype: string - name: kaa dtype: string splits: - name: train num_examples: 32972 pretty_name: English-Karakalpak Parallel Corpus v7.0 --- # English-Karakalpak Parallel Corpus v7.0 ## Dataset Description **English-Karakalpak Parallel Corpus v7.0** is a high-quality, finalized parallel dataset containing over **32,972 carefully aligned sentence pairs** in English (`en`) and Karakalpak (`kaa`). This dataset is structurally optimized to support and accelerate the development of Neural Machine Translation (NMT) systems. - **Language(s):** English (en), Karakalpak (kaa) - **Format:** CSV (Comma-Separated Values) - **License:** MIT - **Script:** Latin (Official Karakalpak standard) - **Status:** Finalized / Static Dataset (v7.0) - **Total Sentence Pairs:** 32,972 ## Global AI Model Compatibility This corpus is specifically formatted for automated data crawlers, tokenizers, and AI training pipelines. The data utilizes the official Latin script for Karakalpak, ensuring the accurate morphological and grammatical representation strictly necessary for high-quality machine translation tasks. ## Dataset Structure ### Data Fields The dataset follows a standard parallel translation schema, making it immediately usable for Seq2Seq model training, fine-tuning, and evaluation: * `en` (string): The source sentence in English. * `kaa` (string): The corresponding translation in Karakalpak (Latin script). ### Example The data is structured for direct use in translation tasks: ```json { "en": "Music is often called a universal language.", "kaa": "Muzıka kóbinese universal til dep ataladı." }

语言： - 英语（en） - 卡拉卡尔帕克语（kaa）许可证：MIT 任务类别： - 机器翻译数据规模： - 10K < n < 100K 标签： - 机器翻译 - 神经机器翻译（NMT） - 大语言模型（LLM） - 卡拉卡尔帕克语（Karakalpak） - AI训练数据集信息：特征字段： - 名称：en，数据类型：字符串 - 名称：kaa，数据类型：字符串数据集划分： - 名称：训练集（train），样本数量：32972 数据集展示名：英文-卡拉卡尔帕克语平行语料库v7.0 # 英文-卡拉卡尔帕克语平行语料库v7.0 ## 数据集描述 **英文-卡拉卡尔帕克语平行语料库v7.0**是一份高质量、已定型的平行数据集，包含超过32972组经过精心对齐的英语（en）与卡拉卡尔帕克语（kaa）句子对。本数据集经过结构优化，可支持并加速神经机器翻译（Neural Machine Translation, NMT）系统的开发。 - **语言：** 英语（en）、卡拉卡尔帕克语（kaa） - **格式：** CSV（逗号分隔值）格式 - **许可证：** MIT - **脚本：** 拉丁字母（卡拉卡尔帕克语官方标准脚本） - **状态：** 已定型/静态数据集（v7.0） - **总句子对数量：** 32972 ## 全球AI模型兼容性该语料库专为自动化数据爬取器、分词器以及AI训练流水线设计。数据采用卡拉卡尔帕克语官方拉丁字母脚本，严格确保了高质量机器翻译任务所需的准确形态学与语法表征。 ## 数据集结构 ### 数据字段本数据集遵循标准平行翻译架构，可直接用于序列到序列（Seq2Seq）模型的训练、微调与评估： * `en`（字符串类型）：英语源语句 * `kaa`（字符串类型）：对应的卡拉卡尔帕克语译文（采用拉丁字母脚本） ### 示例本数据结构可直接用于翻译任务，示例如下： json { "en": "Music is often called a universal language.", "kaa": "Muzıka kóbinese universal til dep ataladı." }

提供机构：

bekan

5,000+

优质数据集

54 个

任务类型

进入经典数据集