squad-nl-v2.0

Hugging Face2024-11-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/NetherlandsForensicInstitute/squad-nl-v2.0

下载链接

链接失效反馈

官方服务：

资源简介：

SQuAD-NL v2.0数据集是为Sentence Transformers设计的，包含问题、上下文、分数、ID、标题和答案等特征。分数列用于评估嵌入模型。数据集是从SQuAD和XQuAD英文数据集翻译成荷兰语的，并分为训练、开发和测试集。测试集建议仅用于测试荷兰语句子嵌入模型。

创建时间：

2024-11-22

原始信息汇总

SQuAD-NL v2.0 数据集概述

数据集信息

特征:
- question: 问题，类型为字符串。
- context: 上下文，类型为字符串。
- score: 分数，类型为浮点数。
- id: 唯一标识符，类型为字符串。
- title: 标题，类型为字符串。
- answers: 答案结构，包含以下字段：
  - answer_start: 答案开始位置，类型为整数序列。
  - text: 答案文本，类型为字符串序列。
分割:
- train: 训练集，包含130,319个样本，大小为127,996,360字节。
- dev: 开发集，包含10,174个样本，大小为10,772,220字节。
- test: 测试集，包含1,699个样本，大小为1,792,665字节。
数据集大小:
- 下载大小: 18,702,176字节。
- 数据集总大小: 140,561,245字节。
配置:
- default: 默认配置，包含训练、开发和测试集的数据文件路径。
许可证:
- CC BY-SA 4.0
语言:
- 荷兰语 (nl)
任务类别:
- 句子相似度
- 问答
标签:
- sentence-transformers

数据集描述

翻译:
- SQuAD-NL v2.0 是从原始的 SQuAD 和 XQuAD 英语数据集翻译而来。
- 翻译过程如下：
  - train: 从 SQuAD-train-v2.0 翻译，使用 Google Translate。
  - dev: 从 SQuAD-dev-v2.0 和 XQuAD 翻译，使用 Google Translate。
  - test: 从 SQuAD-dev-v2.0 和 XQuAD 翻译，使用 Google Translate 和人工校对。
分数:
- 数据集中新增了 score 列，用于表示问题在上下文中是否有答案。
- score 值为 1.0 表示问题在上下文中有答案，0.0 表示没有答案。

使用建议

建议仅使用 test 分割来测试荷兰语句子嵌入模型，避免训练模型回答特定风格的问题。

搜集汇总

数据集介绍

构建方式

SQuAD-NL v2.0数据集是基于SQuAD和XQuAD英文数据集构建的，通过Google Translate工具将其翻译为荷兰语。训练集和开发集完全由机器翻译生成，而测试集则结合了机器翻译和人工校对，以确保翻译质量。此外，数据集在原基础上新增了`score`列，用于标识问题是否在上下文中存在答案，从而为句子嵌入模型的评估提供了更精细的标注。

使用方法

使用SQuAD-NL v2.0数据集时，建议优先使用测试集进行模型评估，以避免训练集和开发集中的机器翻译偏差影响模型性能。通过Sentence Transformers库，可以加载数据集并构建相似性评估器，结合余弦相似度等指标对模型进行测试。示例代码展示了如何加载数据集、初始化评估器并计算模型性能，为荷兰语句子嵌入模型的开发与优化提供了便捷的工具支持。

背景与挑战

背景概述

SQuAD-NL v2.0数据集是荷兰语自然语言处理领域的重要资源，由GroNLP团队基于SQuAD和XQuAD数据集翻译并改进而来。该数据集于2022年发布，旨在为荷兰语问答系统和句子嵌入模型提供高质量的评估基准。其核心研究问题在于如何通过翻译和人工校对，将英语问答数据集转化为适用于荷兰语的研究工具。SQuAD-NL v2.0不仅延续了SQuAD v2.0的设计理念，包含可回答与不可回答的问题，还引入了相似性评分机制，为句子嵌入模型的性能评估提供了新的维度。该数据集在荷兰语自然语言处理领域具有重要影响力，推动了相关技术的研究与应用。

当前挑战

SQuAD-NL v2.0数据集在构建与应用过程中面临多重挑战。首先，翻译过程中需确保荷兰语文本的语义准确性与流畅性，尤其是对不可回答问题的处理，需避免引入歧义。其次，数据集的相似性评分机制对句子嵌入模型提出了极高要求，模型需在区分可回答与不可回答问题时具备强大的语义理解能力。此外，由于训练集和开发集完全依赖机器翻译，可能存在翻译偏差，导致模型在测试集上的泛化能力受限。最后，数据集的规模相对较小，尤其是测试集仅包含1699个样本，可能影响模型评估的统计显著性。这些挑战共同构成了SQuAD-NL v2.0在荷兰语自然语言处理研究中的关键难点。

常用场景

经典使用场景

SQuAD-NL v2.0数据集在自然语言处理领域中被广泛用于评估和训练荷兰语句嵌入模型。该数据集通过提供问题、上下文和相似性评分，帮助研究者测试模型在问答任务中的表现。特别是在处理包含不可回答问题的情况下，该数据集能够有效评估模型的鲁棒性和准确性。

解决学术问题

SQuAD-NL v2.0数据集解决了在荷兰语环境下问答系统的评估难题。通过引入相似性评分，研究者能够更精确地衡量模型在复杂语境下的表现。该数据集还特别设计了不可回答问题，以挑战模型在区分可回答与不可回答问题上的能力，从而推动了问答系统研究的深入发展。

实际应用

在实际应用中，SQuAD-NL v2.0数据集被用于开发和优化荷兰语智能助手和搜索引擎。通过训练模型在该数据集上的表现，能够提升这些系统在理解用户查询和提供准确答案方面的能力。此外，该数据集还可用于多语言问答系统的开发，促进跨语言信息检索技术的进步。

数据集最近研究