five

LORAXBENCH

收藏
arXiv2025-08-18 更新2025-08-22 收录
下载链接:
https://huggingface.co/datasets/google/LoraxBench
下载链接
链接失效反馈
官方服务:
资源简介:
LORAXBENCH是一个专注于印度尼西亚低资源语言的基准测试套件,涵盖了6种不同的任务:阅读理解、开放式问答、语言推理、因果推理、翻译和文化问答。该数据集包含20种语言,并为三种语言增加了两种正式和非正式的语体。该数据集旨在解决印度尼西亚自然语言处理领域缺乏资源和基准测试的问题,并推动多语言和多文化模型的发展。
提供机构:
墨尔本大学
创建时间:
2025-08-18
搜集汇总
数据集介绍
main_image_url
构建方式
LORAXBENCH通过专业人工翻译构建,涵盖印度尼西亚20种语言及3种语言的正式与非正式语体变体。数据源自印尼本土数据集(如IndoNLI、COPAL-ID等),由母语译者进行跨语言转换,并采用双重验证机制确保质量。翻译过程中引入自动化校验方法检测长度异常与数值不一致问题,所有争议案例均经过重新翻译与专家审议,最终形成包含84,895条数据的并行语料库。
特点
该数据集覆盖阅读理解、开放域问答、自然语言推理、因果推理、文化问答及机器翻译六大任务,突出体现语言多样性与文化特异性。其独特价值在于包含爪哇语、巽他语和马都拉语的正式与非正式语体对比数据,揭示了不同语体在词汇与句法层面的显著差异。数据集平行性强,支持跨语言模型性能对比,且所有内容均基于印尼文化语境设计,有效避免了英语中心主义的文化偏差。
使用方法
研究者可通过零样本或少样本提示策略对多语言模型进行基准测试,特别推荐采用基于对数概率的选择题评估方法。对于文化推理类任务,建议结合语境化提示设计以捕捉本地化语义。数据集支持跨语言迁移学习研究,并可利用其并行特性分析语言间的表征相似性。针对语体变异研究,可通过对比正式与非正式语体的模型表现评估语言模型的语体敏感性。
背景与挑战
背景概述
LORAXBENCH由MBZUAI、墨尔本大学与谷歌联合研发,于2025年正式发布,旨在解决印度尼西亚低资源语言自然语言处理研究长期滞后的问题。作为全球语言多样性最丰富的国家之一,印度尼西亚拥有700多种语言,但现有研究过度集中于印尼语、爪哇语等少数语种。该数据集涵盖20种印尼本土语言,包含阅读理解、开放域问答、自然语言推理等六大任务,并首次为三种语言引入正式与非正式语体的双重标注体系,填补了东南亚语言资源评估体系的空白。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决低资源语言机器翻译中的文化特异性表达捕捉、多语种因果推理的语境差异性,以及正式语体(如爪哇语Krama敬语)在社交媒体语料稀缺导致的模型泛化难题;在构建层面,遭遇语料清洗中雅加达地域文化偏差的过滤、多语种平行语料专家译校的成本控制,以及语体标注体系在语言学规范性与标注一致性之间的平衡问题。
常用场景
经典使用场景
在印度尼西亚多语言自然语言处理研究中,LORAXBENCH作为综合性评估基准,被广泛用于测试模型在六项核心任务上的跨语言表现。研究者通过该数据集系统评估机器学习模型在阅读理解、开放域问答、语言推理等任务中对20种印度尼西亚地方语言的泛化能力,尤其关注低资源语言与正式/非正式语域差异带来的挑战。
实际应用
在实际应用中,LORAXBENCH为开发面向印度尼西亚市场的智能语言系统提供关键支持。教育科技领域利用其评估多语言教学辅助工具的准确性,政府部门借助其测试公共服务对话系统的文化适应性,本地化企业则通过该基准优化翻译引擎对地方语言变体的处理能力,特别是在处理爪哇语敬语系统等复杂语言现象时表现出重要价值。
衍生相关工作
该数据集催生了多个前沿研究方向,包括基于Gatitos词典的词汇增强推理方法、跨语域鲁棒性优化技术,以及低资源语言少样本学习框架。受其启发产生的SEA-LION等区域专属模型,进一步推动了针对东南亚语言特性的架构创新,并促进了与MasakhaNER等国际低资源基准的对比研究体系形成。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作