five

ONERULER

收藏
arXiv2025-03-04 更新2025-03-06 收录
下载链接:
https://github.com/mungg/OneRuler
下载链接
链接失效反馈
官方服务:
资源简介:
ONERULER是一个多语言长文本理解评估基准,包含7个合成任务,跨越26种语言,旨在评估长文本上下文语言模型在多语言环境下的表现。数据集通过两个步骤创建,首先用英语撰写任务指令,然后由各语言的母语者翻译成其他25种语言。数据集包含5.2K个提示,每个任务、每种语言、每个模型都有50个示例。ONERULER的任务包括多种变体的针-in-a-haystack检索任务和两个聚合任务,用于测试模型在长文本上下文中的信息检索和聚合能力。

ONERULER is a multilingual long-text understanding evaluation benchmark encompassing 7 synthetic tasks across 26 languages, designed to evaluate the performance of long-context language models in multilingual scenarios. The dataset is created via a two-step process: first, task instructions are drafted in English, then translated into the remaining 25 languages by native speakers of each respective language. It contains 5.2K prompts, with 50 examples for each task, per language, and per model. The tasks of ONERULER include diverse variants of the pin-in-a-haystack retrieval task and two aggregation tasks, which are used to test models' information retrieval and aggregation capabilities within long-text contexts.
提供机构:
马里兰大学帕克分校, 微软, 马萨诸塞大学阿默斯特分校
创建时间:
2025-03-04
搜集汇总
数据集介绍
main_image_url
构建方式
ONERULER数据集的构建分为两步。首先,研究人员为每个任务编写了英文指令,然后与母语人士合作,将这些指令翻译成25种额外的语言。为了创建ONERULER,研究人员首先为每个任务用英文编写了指令,然后聘请了其他25种语言的母语人士来翻译这些指令。
特点
ONERULER数据集的特点是它是一个多语言基准,旨在评估26种语言中的长上下文语言模型。它包括七个合成任务,这些任务测试了检索和聚合,包括“针在 haystack”任务的新变体,允许不存在针的可能性。ONERULER通过一个两步过程创建,首先为每个任务编写英文指令,然后与母语人士合作,将它们翻译成25种额外的语言。实验表明,随着上下文长度从8K增加到128K标记,低资源和高资源语言之间的性能差距正在扩大。令人惊讶的是,英语并不是长上下文任务中表现最好的语言(在26种语言中排名第6),而波兰语则成为表现最好的语言。
使用方法
ONERULER数据集的使用方法包括评估长上下文语言模型的能力。研究人员使用ONERULER评估了四种不同大小的开放权重和封闭LLM,包括OpenAI的o3-mini-high。实验表明,随着上下文长度的增加,低资源和高资源语言之间的性能差距正在扩大。此外,ONERULER还包括一个跨语言场景,其中指令和上下文出现在不同的语言中,性能可以根据指令语言波动高达20%。
背景与挑战
背景概述
随着长上下文语言模型在现实应用中的需求日益增长,例如摘要和问答系统,对这类模型进行真实评估变得既困难又昂贵。为了解决这个问题,研究者们开始使用合成基准作为替代的诊断工具。ONERULER数据集正是在这样的背景下诞生的,它是一个多语言的基准,旨在评估长上下文语言模型在26种语言中的表现。该数据集由马里兰大学帕克分校和微软等机构的研究人员创建,通过将英语的RULER基准扩展到多语言环境,并增加了七个合成任务来测试检索和聚合能力。ONERULER的创建过程包括两个步骤:首先用英语编写每个任务的指令,然后与母语人士合作将其翻译成其他25种语言。该数据集的发布对于推动未来关于多语言和跨语言长上下文训练管道的研究具有重要意义。
当前挑战
ONERULER数据集面临的主要挑战包括:1)所解决的领域问题:评估长上下文语言模型在多语言环境下的性能。随着上下文长度的增加,低资源和高资源语言之间的性能差距不断扩大。2)构建过程中遇到的挑战:包括翻译任务的指令、处理不同语言之间的语法差异、以及确保所有任务的提示听起来自然。此外,模型在处理可能不存在答案的任务时表现不佳,甚至在资源丰富的语言中也存在这样的问题。在跨语言环境中,当指令和上下文出现在不同的语言中时,性能可能会根据指令语言的变化而波动高达20%。这些挑战表明,长上下文语言模型在多语言和跨语言场景中仍需改进,以提高其在实际应用中的准确性和可靠性。
常用场景
经典使用场景
ONERULER数据集主要用于评估多语言长文本语言模型在处理各种语言环境下的表现。它通过包含七个合成任务来测试模型的检索和聚合能力,包括新的“针在 haystack”任务的变体,允许存在不存在的情况。ONERULER通过一个两步过程创建,首先为每个任务编写英文说明,然后与母语人士合作将它们翻译成其他25种语言。
解决学术问题
ONERULER数据集解决了在多语言和跨语言长文本场景下评估语言模型性能的挑战。它揭示了低资源和高资源语言之间随着上下文长度增加而扩大的性能差距,并表明英语并不是所有模型在长文本任务上的最佳表现语言。此外,该数据集还展示了模型在识别不存在答案时的困难,以及在跨语言场景下,指令语言对性能的影响。
衍生相关工作
ONERULER数据集的发布促进了多语言和跨语言长文本训练流程的改进。它为未来的研究提供了基准,并促使研究人员探索提高模型在长文本理解方面的能力。此外,ONERULER还可以作为其他相关工作的起点,如创建新的合成任务或改进现有的评估指标。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作