Nothingger/kaz-rus-eng-literature-parallel-corpus
收藏Hugging Face2024-07-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Nothingger/kaz-rus-eng-literature-parallel-corpus
下载链接
链接失效反馈官方服务:
资源简介:
多语言文学平行语料库是为翻译任务设计的,包含哈萨克语、俄语和英语的平行文本对。该数据集旨在支持机器翻译模型的开发,提供高质量的文学平行句子。数据集适用于开发和基准测试翻译模型、跨语言分析和哈萨克语、俄语和英语文学的语言学研究。数据集的结构包括语言对、源文本、翻译文本、语言标签和相似度评分。数据集的创建动机是为了提高哈萨克语、俄语和英语在文学领域的机器翻译质量和可访问性。数据来源于公开的文学文本,经过预处理和对齐以确保翻译的准确性。
The Multilingual Literature Parallel Corpus is designed for translation tasks, containing parallel text pairs from literature in three languages: Kazakh, Russian, and English. The dataset is curated to support the development of machine translation models by offering high-quality parallel sentences from literature. It is suitable for developing and benchmarking translation models, cross-linguistic analysis, and linguistic research in the context of Kazakh, Russian, and English literature. The dataset structure includes language pairs, source text, translated text, language labels, and similarity scores. The dataset was created to enhance the quality and accessibility of machine translation models for Kazakh, Russian, and English, specifically within the literary domain. The source data consists of original literary texts in Kazakh, Russian, and English, which were preprocessed and aligned to ensure accurate translations.
提供机构:
Nothingger
原始信息汇总
Multilingual Literature Parallel Corpus 数据集概述
数据集描述
- 任务类别: 翻译
- 语言: 哈萨克语 (kk), 俄语 (ru), 英语 (en)
- 标签: code
- 名称: Multilingual Literature Parallel Corpus
- 大小类别: 10K<n<100K
- 许可证: Apache-2.0
数据集详情
- 语言: 哈萨克语, 俄语, 英语
- 用途:
- 直接使用: 适用于开发和基准测试翻译模型、跨语言分析以及在哈萨克语、俄语和英语文学背景下的语言学研究。
- 超出范围使用: 不适用于非文学文本翻译任务、实时翻译应用或任何需要文学领域外专业术语的使用案例。
数据集结构
- 字段:
- Language_pair: 语言对,格式为 source_to_target (例如 kaz_to_eng)。
- X: 源文本。
- y: 翻译文本。
- X_lang: 源文本的语言。
- y_lang: 翻译文本的语言。
- Similarity: 源文本和目标文本之间的相似度分数。
- 语言对和示例数量:
- rus_to_eng: 23,856 个示例
- rus_to_kaz: 19,832 个示例
- eng_to_rus: 15,690 个示例
- eng_to_kaz: 5,534 个示例
- kaz_to_eng: 3,884 个示例
- kaz_to_rus: 2,300 个示例
数据集创建
- 创建动机: 为了提高哈萨克语、俄语和英语机器翻译模型的质量和可访问性,特别是在文学领域。
- 源数据: 原始文学文本,包括哈萨克语、俄语和英语。
- 目标数据: 翻译后的文学文本,包括哈萨克语、俄语和英语。
- 数据收集和处理: 数据从公开的文学资源中收集,经过预处理以准确对齐翻译,并进行规范化以保持格式和结构的一致性。



