squad-en-nl-gemini-translations

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/OpenOranje/squad-en-nl-gemini-translations

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个SQuAD（斯坦福问答数据集）测试集的荷兰语翻译版本，用于评估荷兰语到英语的翻译模型。原始的英语答案被翻译成了荷兰语，使用了Google的Gemini Flash-2.5模型进行自动化翻译。

创建时间：

2025-10-20

原始信息汇总

SQuAD EN-NL Gemini Translations 数据集概述

数据集基本信息

名称：SQuAD EN-NL Gemini Translations
许可证：Apache-2.0
语言：英语（en）、荷兰语（nl）
数据规模：小于1K样本
下载大小：56,420字节
数据集大小：77,471字节

数据特征

特征字段：
- en（字符串类型）：英语文本
- nl（字符串类型）：荷兰语文本
数据划分：
- 测试集（test）：48个样本，77,471字节

数据集描述

源数据集：SQuAD v2.0测试集
翻译方法：使用Google Gemini Flash-2.5进行自动翻译
主要用途：评估荷兰语到英语的翻译模型

支持任务

机器翻译评估
跨语言问答研究
翻译质量评估

数据集创建

翻译过程：使用Google的Gemini Flash模型将SQuAD测试集从英语自动翻译为荷兰语
创建目的：为翻译模型开发提供经济高效的评估数据集

使用方式

python from datasets import load_dataset dataset = load_dataset("OpenOranje/squad-en-nl-gemini-translations")

局限性

机器翻译内容可能包含翻译错误或不自然的表达
不适合作为独立的荷兰语问答基准
可能存在翻译伪影
主要应用于翻译模型评估，不建议作为训练数据

引用要求

使用本数据集时需引用原始SQuAD论文

联系方式

theaisarth@proton.me、kartikaggarwal98@gmail.com

搜集汇总

数据集介绍

构建方式

在跨语言自然语言处理研究领域，本数据集采用自动化翻译技术构建而成。其核心方法是通过谷歌Gemini Flash-2.5模型对斯坦福问答数据集（SQuAD v2.0）测试集的英文原文进行机器翻译，生成对应的荷兰语版本。这种构建策略既保证了数据来源的权威性，又通过先进的多语言模型实现了跨语言转换，为机器翻译评估提供了标准化测试基准。

使用方法

研究人员可通过Hugging Face数据集库直接加载该资源，利用其平行文本特性进行翻译质量评估。典型应用场景包括将荷兰语译文通过待评估模型回译为英语，再与原始英文文本进行自动指标对比。这种使用方法能够有效衡量翻译模型在保持语义一致性方面的性能，为跨语言自然语言处理系统的优化提供量化依据。

背景与挑战

背景概述

随着跨语言自然语言处理研究的深入发展，机器翻译质量评估成为关键研究课题。SQuAD EN-NL Gemini Translations数据集由OpenOranje团队于2024年基于斯坦福问答数据集构建，采用谷歌Gemini Flash-2.5模型实现英荷双向翻译。该数据集聚焦于低资源语言场景下的翻译模型评估，通过复用SQuAD v2.0测试集的权威问答框架，为荷兰语与英语间的语义对齐研究提供了标准化基准，显著推动了多语言问答系统与神经机器翻译的交叉领域发展。

当前挑战

在机器翻译评估领域，该数据集需解决译文质量与源文本语义一致性的核心难题，包括专业术语跨语言映射偏差和问答对逻辑连贯性保持等问题。构建过程中面临自动翻译的固有局限，如荷兰语复合词处理中的语法结构错位，以及文化特定表达转换失准等技术瓶颈。同时，小规模样本特性导致统计显著性不足，难以全面覆盖语言现象多样性，这些因素共同制约着数据集在细粒度翻译质量评估中的应用深度。

常用场景

经典使用场景

在跨语言自然语言处理研究中，该数据集作为机器翻译评估的基准工具，通过将荷兰语问题翻译回英语并与原始SQuAD测试集对比，系统评估翻译模型的语义保持能力和语言转换准确性。其核心价值在于构建标准化的双语对照框架，为翻译质量量化分析提供可靠数据支撑。

解决学术问题

该数据集有效解决了跨语言语义对齐的学术难题，通过自动化翻译生成平行语料，为低资源语言对的研究提供可行方案。其意义在于突破传统人工标注的成本限制，推动机器翻译评估方法学的创新，同时为多语言问答系统的迁移学习研究开辟新路径。

实际应用

在工业实践中，该数据集被广泛应用于优化商业翻译系统的荷兰语-英语互译模块，特别是在法律文档与学术文献的跨语言检索场景中。其自动生成的测试集能快速验证翻译引擎对专业术语的处理能力，显著提升跨国企业本地化服务的质量管控效率。

数据集最近研究