five

RULER-multilingual

收藏
Hugging Face2026-01-29 更新2026-01-30 收录
下载链接:
https://huggingface.co/datasets/AIML-TUDA/RULER-multilingual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个多语言配置版本,主要分为niah_single_1和qa两个系列,涵盖德语(de)、英语(en)、西班牙语(es)、法语(fr)、意大利语(it)、波兰语(pl)和葡萄牙语(pt)等语言变体。每个配置包含500个测试样本,具有统一的特征结构:包含索引字段(index)、原始输入文本(input)、输出列表(outputs)、文本长度(length)、目标语言输入/输出字段(如input_de/outputs_de)以及语言标识字段(source_language/target_language)。数据集特别包含翻译状态标记(_translation_failed),表明其可能用于机器翻译或跨语言文本处理任务。技术规格方面,不同语言版本的数据集大小在64MB-149MB之间,下载大小在2.9MB-90MB范围内。
创建时间:
2026-01-28
原始信息汇总

RULER-multilingual 数据集概述

数据集基本信息

  • 数据集名称: RULER-multilingual
  • 托管地址: https://huggingface.co/datasets/AIML-TUDA/RULER-multilingual
  • 配置数量: 20个独立配置

配置与语言

数据集包含两种任务类型,每种类型下包含多个语言变体。

任务类型一:niah_single_1

  • 包含的语言配置:
    • niah_single_1_de (德语)
    • niah_single_1_en (英语)
    • niah_single_1_es (西班牙语)
    • niah_single_1_fr (法语)
    • niah_single_1_it (意大利语)
    • niah_single_1_pl (波兰语)

任务类型二:qa_1 与 qa_2

  • qa_1 包含的语言配置:
    • qa_1_de (德语)
    • qa_1_en (英语)
    • qa_1_es (西班牙语)
    • qa_1_fr (法语)
    • qa_1_it (意大利语)
    • qa_1_pl (波兰语)
    • qa_1_pt (葡萄牙语)
  • qa_2 包含的语言配置:
    • qa_2_de (德语)
    • qa_2_en (英语)
    • qa_2_es (西班牙语)
    • qa_2_fr (法语)
    • qa_2_it (意大利语)
    • qa_2_pl (波兰语)
    • qa_2_pt (葡萄牙语)

数据结构

所有配置共享相同的特征结构。

特征列表

  1. index: int64 类型,索引。
  2. input: string 类型,输入文本。
  3. outputs: string 列表,输出文本列表。
  4. length: int64 类型,长度信息。
  5. 语言特定输入字段(例如 input_de, input_en): string 类型。
  6. 语言特定输出字段(例如 outputs_de, outputs_en): string 列表。
  7. source_language: string 类型,源语言。
  8. target_language: string 类型,目标语言。
  9. _translation_failed: bool 类型,翻译失败标识。

数据划分与规模

所有配置仅包含一个数据划分:test(测试集)。每个配置的测试集均包含500个样本。

各配置详细规模

niah_single_1 任务

  • niah_single_1_de: 下载大小 2,994,176 字节,数据集大小 65,066,519 字节。
  • niah_single_1_en: 下载大小 5,916,037 字节,数据集大小 117,393,147 字节。
  • niah_single_1_es: 下载大小 2,979,916 字节,数据集大小 64,553,130 字节。
  • niah_single_1_fr: 下载大小 5,733,993 字节,数据集大小 114,021,307 字节。
  • niah_single_1_it: 下载大小 2,986,590 字节,数据集大小 64,389,800 字节。
  • niah_single_1_pl: 下载大小 2,977,435 字节,数据集大小 64,295,428 字节。

qa_1 任务

  • qa_1_de: 下载大小 45,198,329 字节,数据集大小 74,933,050 字节。
  • qa_1_en: 下载大小 90,334,304 字节,数据集大小 149,736,609 字节。
  • qa_1_es: 下载大小 45,198,244 字节,数据集大小 74,934,391 字节。
  • qa_1_fr: 下载大小 45,200,190 字节,数据集大小 74,938,624 字节。
  • qa_1_it: 下载大小 45,198,921 字节,数据集大小 74,934,408 字节。
  • qa_1_pl: 下载大小 45,196,784 字节,数据集大小 74,928,086 字节。
  • qa_1_pt: 下载大小 45,198,766 字节,数据集大小 74,934,296 字节。

qa_2 任务

  • qa_2_de: 下载大小 39,062,764 字节,数据集大小 62,910,790 字节。
  • qa_2_en: 下载大小 78,072,053 字节,数据集大小 125,751,955 字节。
  • qa_2_es: 下载大小 39,063,785 字节,数据集大小 62,912,690 字节。
  • qa_2_fr: 下载大小 39,067,542 字节,数据集大小 62,918,981 字节。
  • qa_2_it: 下载大小 39,063,167 字节,数据集大小 62,911,250 字节。
  • qa_2_pl: 下载大小 39,061,952 字节,数据集大小 62,908,938 字节。
  • qa_2_pt: 下载大小 39,064,452 字节,数据集大小 62,912,332 字节。

文件路径

每个配置的数据文件路径模式为:[配置名称]/test-*(例如 niah_single_1_de/test-*)。

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,多语言基准测试对于评估模型的跨语言泛化能力至关重要。RULER-multilingual数据集的构建采用了系统化的多语言翻译策略,通过将原始英文任务数据精准地转化为德语、西班牙语、法语、意大利语、波兰语和葡萄牙语等多种语言版本。每个语言配置均包含统一的特征结构,如索引、输入文本、输出列表及语言标识,并特别设置了翻译失败标记以确保数据质量。构建过程注重语言对之间的平行对应,旨在为多语言语言模型提供一个严谨且可比较的评估框架。
使用方法
针对多语言模型评估的研究需求,该数据集的使用主要围绕其预设的测试分割展开。研究人员可通过HuggingFace数据集库直接加载特定的语言与任务配置,例如‘qa_1_en’或‘niah_single_1_fr’,以获取对应语言的测试样本。典型的使用流程包括:加载数据后,将‘input’字段作为模型输入,并将‘outputs’列表中的内容作为参考标准,用以计算模型在文本生成或问答等任务上的各项评估指标。通过系统性地遍历不同语言配置,研究者能够全面量化模型在不同语言环境下的性能表现与泛化特性。
背景与挑战
背景概述
在自然语言处理领域,多语言模型评估日益成为研究焦点,RULER-multilingual数据集应运而生,旨在系统评估模型在多种语言下的推理与问答能力。该数据集由相关研究团队构建,涵盖德语、英语、西班牙语、法语、意大利语、波兰语及葡萄牙语等多种语言,通过精心设计的问答与推理任务,探索模型跨语言泛化性能。其核心研究问题聚焦于多语言环境下模型对复杂语义的理解与生成,为推进语言智能的全球化应用提供了关键基准。
当前挑战
该数据集致力于解决多语言问答与推理任务中的核心挑战,即模型在不同语言间保持一致的性能表现,避免因语言差异导致的性能衰减。构建过程中,挑战主要体现在多语言数据的高质量对齐与翻译,需确保语义的准确传递,同时处理语言特有的文化语境与表达习惯。此外,数据规模的平衡与标注一致性也是构建难点,需克服翻译失败案例对数据集完整性的影响。
常用场景
经典使用场景
在自然语言处理领域,多语言基准测试对于评估模型跨语言泛化能力至关重要。RULER-multilingual数据集以其多语言问答和推理任务为经典使用场景,涵盖德语、英语、西班牙语、法语、意大利语、波兰语和葡萄牙语等多种语言。该数据集通过提供平行语料,支持研究者对大型语言模型进行跨语言性能评估,特别是在零样本或少样本学习环境中,检验模型在不同语言间的知识迁移与推理一致性。
解决学术问题
该数据集有效解决了多语言自然语言处理中的核心学术问题,即模型在跨语言环境下的泛化性与鲁棒性不足。通过提供结构化的多语言问答对,它使得研究者能够系统分析语言模型在处理不同语言时出现的偏差、翻译错误以及文化语境差异。其意义在于推动了多语言评估标准的统一,为跨语言迁移学习、语言无关表示等研究方向提供了可靠的数据基础,促进了全球化人工智能应用的理论发展。
实际应用
在实际应用层面,RULER-multilingual数据集为开发多语言智能助手、跨语言搜索引擎和全球化客户服务系统提供了关键支持。企业可以利用该数据集训练和优化模型,以实现在多种语言中准确理解用户查询并提供一致的回答。例如,在国际商务、教育平台或内容审核系统中,该数据集帮助提升模型对多语言用户输入的响应质量,增强服务的包容性与可访问性。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言基准测试正成为评估模型跨语言泛化能力的关键工具。RULER-multilingual数据集以其涵盖德语、英语、西班牙语、法语、意大利语、波兰语和葡萄牙语等多种语言的特性,为研究多语言问答和推理任务提供了重要资源。当前前沿研究聚焦于利用此类数据集探索大语言模型在低资源语言上的性能表现,以及跨语言迁移学习中的知识传递机制。随着全球多语言AI应用的兴起,该数据集助力于揭示模型在文化语境差异下的鲁棒性,推动了公平性评估和多语言对齐技术的发展,对构建包容性人工智能系统具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作