KazParC
收藏github2024-03-29 更新2024-05-31 收录
下载链接:
https://github.com/IS2AI/KazParC
下载链接
链接失效反馈官方服务:
资源简介:
该数据集收集了哈萨克语、英语、俄语和土耳其语之间的平行文本,来源包括谚语、术语词汇、短语手册、文学作品、期刊、语言学习材料、教育视频字幕、新闻、TED演讲、政府和监管法律文件、总统官方网站的通信、联合国出版物以及图像标题等。数据被分为五个广泛的领域:大众媒体、一般、法律、教育和科技。
This dataset comprises parallel texts in Kazakh, English, Russian, and Turkish, sourced from a variety of materials including proverbs, terminological vocabularies, phrasebooks, literary works, periodicals, language learning materials, educational video subtitles, news, TED talks, government and regulatory legal documents, communications from presidential official websites, United Nations publications, and image captions. The data is categorized into five broad domains: mass media, general, legal, education, and science and technology.
创建时间:
2023-10-27
原始信息汇总
数据集概述
数据集名称
- KazParC: 哈萨克语平行语料库,用于机器翻译。
数据来源
- 数据收集自多种文本来源,包括谚语、术语词汇、短语书、文学作品、期刊、语言学习材料、教育视频字幕、新闻、TED演讲、政府和监管法律文件、总统官方网站通信、联合国出版物以及图像标题。
数据分类
- 数据被分为五个广泛领域:大众媒体、一般、法律文件、教育和科学、小说。
数据统计
- 总行数: 371,902
- 总令牌数: 6,424,274 (EN), 4,692,876 (KK), 5,019,566 (RU), 4,610,538 (TR)
数据预处理
- 数据被组织成语言对,移除了不想要的字符和同形异义字,处理了格式问题,并移除了重复条目。
数据分割
- 数据被随机分为测试集和训练/验证集,遵循80/20的分割比例。
合成语料库
- 通过网络爬虫从英语网站收集了1,797,066个句子,并使用Google翻译服务自动翻译成哈萨克语、俄语和土耳其语。
数据向量化
- 使用HuggingFace的transformers和datasets库进行数据向量化。
语料库结构
- 语料库分为两部分:KazParC和SynC,每个部分包含训练、验证和测试文件,按语言对组织。
实验设置
- 使用Facebook的NLLB模型进行翻译,支持多种语言,包括哈萨克语、英语、俄语和土耳其语。
搜集汇总
数据集介绍

构建方式
KazParC数据集的构建过程始于2021年7月,历时两年多,涵盖了哈萨克语、英语、俄语和土耳其语的多源文本数据。数据来源广泛,包括谚语、术语表、文学作品、新闻、法律文件等。团队通过语言学家的严格审查,确保数据质量,并对数据进行分句、去重和语法校正。特别针对哈萨克语与俄语的语码转换现象,进行了统一的翻译处理,以确保语料库的一致性。
特点
KazParC数据集以其多样性和广泛性著称,涵盖了五大领域:大众媒体、通用文本、法律文件、教育与科学以及文学作品。数据集包含超过37万行文本,涉及四种语言,且每行文本均标注了领域信息。此外,数据集还通过随机选择的方式生成了测试集,并按照80/20的比例划分了训练集和验证集,确保了数据的均衡分布。
使用方法
KazParC数据集的使用方法灵活多样,适用于机器翻译模型的训练与评估。数据集以CSV文件形式提供,分为原始数据文件和预处理后的语言对文件。用户可以通过Hugging Face平台直接访问数据集,并利用其提供的工具进行数据加载和向量化处理。实验设置中,推荐使用Facebook的NLLB模型进行翻译任务,并通过训练集、验证集和测试集的划分,评估模型的性能。
背景与挑战
背景概述
KazParC(Kazakh Parallel Corpus)是由ISSAI(Institute of Smart Systems and Artificial Intelligence)于2021年7月至2023年9月期间构建的一个哈萨克语平行语料库,旨在推动哈萨克语与英语、俄语、土耳其语之间的机器翻译研究。该数据集涵盖了多种文本来源,包括谚语、术语表、文学作品、新闻、法律文件等,并将其分为五大领域:大众媒体、通用文本、法律文件、教育与科学以及小说。KazParC的构建不仅为哈萨克语的机器翻译提供了丰富的语料资源,还通过引入合成语料(SynC)进一步扩展了数据集的多样性和规模。该数据集的研究成果已在2024年3月发布的论文《KazParC: Kazakh Parallel Corpus for Machine Translation》中详细阐述,对哈萨克语的自然语言处理研究具有重要推动作用。
当前挑战
KazParC在构建过程中面临了多方面的挑战。首先,哈萨克语与俄语之间的代码切换现象在哈萨克斯坦极为普遍,如何在保持语义一致性的同时,将混合文本统一为哈萨克语,成为数据处理中的一大难题。其次,数据收集的多样性要求团队从多个来源获取文本,并确保其质量和一致性,这对语言学家的审查和筛选工作提出了较高要求。此外,数据预处理阶段需要处理同形异义词、格式问题以及重复条目,这些技术细节的复杂性增加了数据清洗的难度。最后,尽管合成语料(SynC)的引入扩展了数据集的规模,但机器翻译生成的文本质量仍需进一步验证,以确保其在模型训练中的有效性。
常用场景
经典使用场景
KazParC数据集在机器翻译领域具有广泛的应用,尤其是在哈萨克语、英语、俄语和土耳其语之间的多语言翻译任务中。该数据集通过提供丰富的平行语料,支持研究人员开发和评估多语言翻译模型。其经典使用场景包括训练和测试神经机器翻译模型,如Tilmash模型,以提升翻译的准确性和流畅性。
解决学术问题
KazParC数据集解决了多语言翻译研究中数据稀缺的问题,尤其是针对哈萨克语等低资源语言。通过提供涵盖多个领域的平行语料,该数据集为研究人员提供了高质量的训练和测试数据,推动了多语言翻译模型的发展。此外,该数据集还支持对机器翻译模型在处理不同语言对时的性能进行系统性评估,为相关学术研究提供了坚实的基础。
衍生相关工作
KazParC数据集衍生了一系列相关研究工作,特别是在多语言机器翻译领域。基于该数据集,研究人员开发了Tilmash等神经机器翻译模型,并在多个语言对上进行了性能优化。此外,该数据集还促进了多语言翻译模型的跨语言迁移学习研究,推动了低资源语言翻译技术的发展。相关研究成果已在多个国际学术会议和期刊上发表,进一步扩展了该数据集的影响力。
以上内容由遇见数据集搜集并总结生成



