five

mafoko-tshivenda-augmented-translations

收藏
Hugging Face2025-10-21 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/dsfsi/mafoko-tshivenda-augmented-translations
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含从Mafoko项目中提取的稀有词汇的翻译数据集,包括人工参考、基线和增强检索的翻译。数据集涉及健康服务、选举、议会和南非统计术语等领域。
提供机构:
Data Science for Social Impact
创建时间:
2025-10-21
原始信息汇总

数据集概述

基本信息

  • 任务类别: 翻译、文本生成
  • 语言: 文达语(ve)、英语(en)
  • 标签: mafoko、augmentation、rag、tshivenda
  • 正式名称: tshivenda-retrieval-based-translation

数据集描述

本数据集包含从Mafoko项目中提取的部分罕见词语的翻译对比,包括人工参考翻译、基线翻译和检索增强翻译。数据集涵盖以下领域:健康服务、选举、议会和南非统计术语。

该数据集是更广泛的"Mafoko:南非术语、词典和词汇表项目"的一部分,该项目致力于全面收集、细致清理和转化处理南非语言术语列表、词典和词汇表。此倡议是数据科学促进社会影响实验室/小组更广泛使命的重要组成部分,旨在解放并开放共享尽可能多的语言资源。

数据集结构

数据集包含6个字段:

  • English Sentence (字符串)
  • Human Reference (字符串数组 - 替代翻译)
  • OpenAI Baseline (字符串)
  • OpenAI Augmented (字符串)
  • Gemini Baseline (字符串)
  • Gemini Augmented (字符串)
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言技术发展的背景下,该数据集聚焦于文达语与英语的翻译任务,通过从Mafoko项目中提取罕见词汇,构建了涵盖健康服务、选举事务、议会记录及南非统计术语的多领域平行语料。构建过程结合了人工参考翻译与基于检索增强生成的技术路径,采用OpenAI与Gemini双模型框架生成基线及增强版本译文,形成六维对比结构。
特点
该数据集的核心特征体现在其多维度翻译对照体系,同时包含人工参考译文与两种主流大语言模型的基线及增强输出。其语料精选自南非公共事务领域的专业术语,特别关注文达语中稀缺表达的资源化处理。通过结构化存储六种译文变体,为低资源语言机器翻译的评估提供了细粒度分析基础。
使用方法
研究者可借助该数据集开展低资源语言翻译模型的性能评估,通过对比人工参考译与不同模型输出的差异,分析检索增强技术对专业术语翻译的改进效果。使用时应注重字段间对应关系,将英语原句作为输入基准,横向比较各译文在语义忠实度与专业准确性上的表现,尤其适合用于提升文达语机器翻译的领域适应性。
背景与挑战
背景概述
在低资源语言技术发展的背景下,Mafoko-Tshivenda增强翻译数据集于2024年由南非数据科学社会影响实验室主导构建,聚焦文达语与英语间的跨语言转换。该数据集作为Mafoko南非术语词典计划的核心组成部分,系统整合了医疗健康、选举事务、议会政治及统计术语四大专业领域的双语对照语料,旨在通过高质量翻译资源填补非洲本土语言在自然语言处理领域的空白。其创新性地融合了传统人工译稿与基于检索增强生成技术的自动翻译结果,为促进语言技术的包容性发展提供了关键数据支撑。
当前挑战
该数据集首要应对低资源语言机器翻译的领域适应难题,文达语作为南非官方语言中数字化程度较低的语种,其复杂形态结构与专业术语的稀缺性严重制约翻译模型性能。在构建过程中,团队需克服专业领域术语标准化缺失的障碍,例如医疗与法律文本中文化特定概念的等效转换。同时,检索增强技术的应用面临多源译文质量评估体系的建立挑战,需平衡人工参考译文的权威性与自动生成结果的流畅度,而术语一致性维护与方言变体处理则进一步增加了数据标注的复杂性。
常用场景
经典使用场景
在低资源语言技术研究领域,该数据集为文达语与英语之间的机器翻译提供了珍贵的实验平台。其独特价值在于同时收录了人工参考译文与多种增强翻译结果,使研究人员能够系统评估检索增强生成技术在稀有术语翻译中的表现。特别是在健康服务、选举事务和议会术语等专业领域,该数据集为跨语言信息传递建立了可靠的基准。
实际应用
在现实应用层面,该数据集支撑着南非公共服务领域的多语言信息传播系统。基于此构建的翻译模型能够提升政府文件、医疗指南和选举材料的文达语翻译质量,确保信息准确传达给文达语使用群体。同时,该资源也为教育机构开发双语教学材料、新闻媒体制作多语言内容提供了技术支撑。
衍生相关工作
围绕该数据集衍生的研究推动了低资源语言处理技术的创新。基于检索增强的翻译方法在文达语机器翻译任务中展现出显著优势,激发了更多针对非洲语言的资源构建计划。数据科学促进社会影响实验室的后续工作进一步扩展了南非其他官方语言的术语资源,形成了良性发展的语言技术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作