five

Southern Uzbek FLORES+dev

收藏
arXiv2025-08-20 更新2025-08-22 收录
下载链接:
https://SCTIDCS
下载链接
链接失效反馈
官方服务:
资源简介:
南方乌兹别克语数据集是由阿富汗科学院的研究人员创建的,旨在解决南方乌兹别克语在自然语言处理领域中的代表性不足问题。该数据集包括997个从英语翻译成南方乌兹别克语的句子,以及来自词典、文学和网页资源的39,994个平行句子。数据集还包括一个经过微调的NLLB-200模型,用于南方乌兹别克语的翻译。此外,还提出了一种后处理方法,用于恢复阿拉伯文字符的半空格字符,从而提高了对形态学边界的处理能力。所有数据集、模型和工具都已公开发布,以支持对南方乌兹别克语和其他低资源语言的未来研究工作。
提供机构:
阿富汗科学院
创建时间:
2025-08-20
搜集汇总
数据集介绍
构建方式
Southern Uzbek FLORES+dev数据集的构建遵循了严格的跨语言对齐流程,依托Open Language Data Initiative框架展开。该数据集包含997个从英语翻译为南乌兹别克语的句子,由母语语言学家主导翻译过程,并经过多轮审校确保语言准确性与文化适应性。翻译过程严格遵循阿拉伯字母正字法规范,特别注重半角字符(U+200C)在形态边界处的正确使用,以保持文本在拼写和语法上的一致性。
特点
该数据集的核心特征在于其语言资源的稀缺性与独特性,聚焦于南乌兹别克语这一使用阿拉伯字母书写、具有丰富形态变化的突厥语族变体。数据内容涵盖文学、日常用语及部分政府文书等多个领域,句子结构复杂且文化负载词频现。其另一显著特点是严格遵循半角字符规范,以准确表达黏着语中的词缀边界,这在低资源机器翻译任务中具有重要的语言学价值与技术挑战性。
使用方法
该数据集主要用于训练和评估低资源神经机器翻译模型,尤其适用于多语言模型如NLLB的微调任务。用户可将其作为开发集或测试集,用于衡量模型在南乌兹别克语与英语、北乌兹别克语之间的翻译性能。使用前需进行半角字符一致性检查,建议配合附带的形态后处理工具以优化输出质量。该资源也适用于跨方言语言对比研究和阿拉伯文字语言处理技术的开发。
背景与挑战
背景概述
Southern Uzbek FLORES+dev数据集由Tilmoch、阿富汗科学院及MBZUAI的研究团队于2025年创建,旨在填补南乌兹别克语在自然语言处理领域的资源空白。南乌兹别克语作为突厥语族的重要分支,拥有约500万使用者,主要分布于阿富汗境内,其在音系、词汇和正字法上与北乌兹别克语存在显著差异。该数据集包含997个句子,源自FLORES基准的扩展开发集,支持机器翻译模型的训练与评估,推动了低资源语言技术发展,并为多语言NLP研究提供了关键基础设施。
当前挑战
南乌兹别克语机器翻译面临双重挑战:领域问题上,需解决阿拉伯文字符的复杂表征(如半空格字符U+200C的形态边界处理)及方言间语法差异导致的翻译准确性问题;构建过程中,数据稀缺与质量不一成为主要障碍,需从文学典籍、网络资源中挖掘并行语料,并克服OCR识别错误与正字法不一致性。此外,多语言模型对阿拉伯脚本的支持不足,需开发专用后处理方法来恢复形态信息。
常用场景
经典使用场景
在低资源语言机器翻译研究中,Southern Uzbek FLORES+dev数据集被广泛应用于评估跨语言模型的性能。该数据集通过精心构建的997句平行语料,为研究者提供了标准化的测试基准,特别是在处理阿拉伯文字符和复杂形态边界时展现出独特价值。其典型应用场景包括训练和验证神经机器翻译模型,尤其是在英语与南乌兹别克语之间的双向翻译任务中,为学术界提供了可靠的性能对比基础。
解决学术问题
该数据集有效解决了低资源语言机器翻译中的核心学术问题,包括数据稀缺条件下的模型泛化能力、跨文字系统的语义对齐以及形态丰富语言的表征学习。通过提供高质量的阿拉伯文标注数据,它填补了南乌兹别克语在计算语言学领域的空白,为研究语言多样性对神经网络的影响提供了实证基础,推动了多语言自然语言处理技术的包容性发展。
衍生相关工作
该数据集催生了多项创新研究,包括基于LaBSE嵌入的跨文字对齐算法、半角字符后处理模型以及针对阿拉伯文字符的形态分析工具。相关成果延伸至波斯语、普什图语等使用阿拉伯文字的低资源语言处理,启发了OLDI倡议下的多语言资源建设框架,并为NLLB-200等多语言模型的优化提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作