LongBench-multilingual

Hugging Face2026-01-26 更新2026-01-27 收录

下载链接：

https://huggingface.co/datasets/AIML-TUDA/LongBench-multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个多语言问答数据集的配置信息，涵盖德语、英语、西班牙语、意大利语、葡萄牙语等多种语言版本。每个数据集配置包含以下核心字段：输入问题(input)、上下文(context)、答案列表(answers)、文本长度(length)、数据集来源(dataset)、语言标识(language)以及翻译相关字段。数据集分为测试集(test)，样本量在200-300条之间，数据规模从7MB到28MB不等。这些数据集适用于多语言问答系统的开发和评估任务，特别关注机器翻译在跨语言问答中的应用效果。

创建时间：

2026-01-17

原始信息汇总

数据集概述

基本信息

数据集名称: LongBench-multilingual
托管地址: https://huggingface.co/datasets/AIML-TUDA/LongBench-multilingual
配置数量: 39个独立配置

数据集结构

核心特征

所有配置共享以下核心特征：

input: 字符串类型，表示输入问题或指令。
context: 字符串类型，表示提供的上下文信息。
answers: 字符串列表，表示答案列表。
length: 整型，表示长度信息。
dataset: 字符串类型，标识源数据集。
language: 字符串类型，标识语言。
all_classes: 空值类型。
_id: 字符串类型，唯一标识符。
source_language: 字符串类型，源语言。
target_language: 字符串类型，目标语言。

语言特定特征

根据配置不同，可能包含以下翻译特征：

input_[语言代码]: 特定语言的输入翻译。
context_[语言代码]: 特定语言的上下文翻译。
answers_[语言代码]: 特定语言的答案翻译列表。
_translation_failed: 布尔类型，标识翻译是否失败。

配置详情

2wikimqa 系列

涵盖语言: 德语（de）、英语（en）、意大利语（it）、葡萄牙语（pt）、希腊语（el）、西班牙语（es）、芬兰语（fi）、挪威语（no）
变体: 包含标准版本（如2wikimqa_de）和扩展版本（如2wikimqa_e_de）
数据规模:
- 标准版本: 200个测试样本
- 扩展版本: 300个测试样本

gov_report 系列

涵盖语言: 德语（de）、英语（en）、意大利语（it）、葡萄牙语（pt）、西班牙语（es）
变体: 包含标准版本（如gov_report_de）和扩展版本（如gov_report_e_de）
数据规模:
- 标准版本: 200个测试样本
- 扩展版本: 300个测试样本

hotpotqa 系列

涵盖语言: 德语（de）、英语（en）、意大利语（it）、葡萄牙语（pt）、希腊语（el）、西班牙语（es）
变体: 包含标准版本（如hotpotqa_de）和扩展版本（如hotpotqa_e_de）
数据规模:
- 标准版本: 200个测试样本
- 扩展版本: 300个测试样本

数据划分

唯一划分: 所有配置仅包含test（测试）划分
样本数量: 每个配置的测试集样本数量为200或300
数据大小: 各配置的下载大小和数据集大小在README中明确列出

多语言支持

核心语言: 德语、英语、意大利语、葡萄牙语、西班牙语、希腊语、芬兰语、挪威语
翻译机制: 通过特征后缀（如_de, _en）标识不同语言版本的内容
翻译状态: 部分配置包含_translation_failed字段以标记翻译失败情况

搜集汇总

数据集介绍

构建方式

在长文本理解与多语言处理领域，LongBench-multilingual数据集通过精心设计的构建流程，整合了多种语言的长文档问答任务。该数据集以2WikiMultihopQA、GovReport和HotpotQA等知名基准为基础，运用机器翻译技术将原始英文语料转化为德语、西班牙语、意大利语、葡萄牙语、希腊语、芬兰语、挪威语等多种语言版本。构建过程中，每个配置均包含输入问题、长上下文文档及参考答案列表，并标注了语言来源与翻译状态，确保了数据的多样性与可靠性，为评估模型在多语言长文本理解能力提供了结构化资源。

使用方法

针对多语言长文本理解模型的评估需求，LongBench-multilingual数据集可通过HuggingFace平台直接加载，用户需根据目标语言选择相应配置名称进行调用。使用时应关注输入、上下文与答案字段的结构化对应关系，并参考翻译失败标识以排除低质量样本。该数据集专为测试阶段设计，支持模型在统一框架下进行多语言长文档问答任务的性能比较，为研究跨语言理解能力与长上下文处理机制提供了标准化实验基础。

背景与挑战

背景概述

在自然语言处理领域，长文本理解与多语言能力评估是推动大语言模型发展的关键环节。LongBench-multilingual数据集由清华大学等研究机构于2024年创建，旨在系统评估模型在跨语言长上下文任务中的性能。该数据集整合了多种语言的长文档问答任务，如2WikiMultihop QA、HotpotQA和政府报告摘要等，核心研究问题聚焦于模型处理多语言长文本时的理解、推理与信息整合能力。其构建为多语言长文本基准测试提供了标准化工具，显著促进了跨语言模型评估的公平性与可比性，对全球化应用场景下的语言模型发展具有深远影响。

当前挑战

该数据集致力于解决多语言长文本问答任务的评估挑战，包括模型在跨语言长上下文中的语义连贯性保持、复杂推理链的构建以及低资源语言的理解偏差问题。构建过程中面临多重挑战：首先，长文本的翻译与对齐需确保语义精确性和文化适应性，避免因机械翻译导致的信息失真；其次，多语言数据收集需平衡语言覆盖范围与数据质量，尤其对于语法结构迥异或资源稀缺的语言；此外，数据标注的一致性维护与噪声控制也是关键，需克服不同语言背景标注者的主观差异，确保评估标准的统一性。

常用场景

经典使用场景

在自然语言处理领域，长文本理解与多语言问答任务日益成为研究焦点。LongBench-multilingual数据集通过整合多种语言的长文档问答任务，为评估大语言模型在跨语言长上下文理解能力提供了标准化基准。该数据集经典地应用于模型性能对比实验，研究者利用其多语言配置测试模型在不同语言上的阅读理解、信息检索与推理能力，尤其在处理如政府报告、维基百科等多源长文档时，能够系统检验模型的长距离依赖捕捉与跨语言知识迁移效果。

解决学术问题

该数据集有效应对了当前大语言模型在长文本处理中面临的语境碎片化与跨语言泛化不足等核心挑战。通过提供多语言平行语料与长文档问答对，它解决了模型在长序列建模中信息衰减、语言偏见以及低资源语言理解能力评估缺失等学术问题。其构建促进了长上下文注意力机制、跨语言表示对齐等研究方向的发展，为量化模型的多语言长文本理解能力提供了可靠度量标准，推动了语言模型评估体系向更全面、公平的方向演进。

实际应用

在实际应用层面，LongBench-multilingual数据集为开发多语言智能助手、跨语言文档分析系统以及全球化知识检索工具提供了关键训练与评估资源。例如，在构建支持多语言的政府文件自动摘要系统或跨国企业知识库问答引擎时，该数据集能够帮助优化模型对长篇幅官方文档的理解准确性，并提升其在德语、西班牙语、意大利语等多种语言上的表现鲁棒性，从而满足全球化信息服务中对语言多样性与内容深度的双重需求。

数据集最近研究