gooaq_mt_german_5_hard_negatives

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/MarcGrumpyOlejak/gooaq_mt_german_5_hard_negatives

下载链接

链接失效反馈

官方服务：

资源简介：

GooAQ德语数据集是一个包含约2M个问题-答案-负样本三元组和问题-答案-负样本_1到_5的元组的集合，用于训练嵌入模型。这些数据是从机器翻译的英文版GooAQ数据集中挖掘出来的，负样本通过特定的双语模型自动挖掘，并设置了相关参数以确保负样本的选取质量。数据集适用于特征提取和问答任务。

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

名称: German_GooAQ_5hn
许可证: Apache-2.0
任务类别: 特征提取、问答
语言: 德语
规模: 1M<n<10M
标签: sentence-transformers

数据集内容

数据来源: 机器翻译版本的 MarcGrumpyOlejak/gooaq_mt_german
数据类型: 问题-答案-负样本三元组及问题-答案-负样本_1...负样本_5元组
数据量: 约2M条
特征列:
- question_mt_de: 翻译为德语的问题
- answer_mt_de: 翻译为德语的答案
- negative_1 到 negative_5: 5个挖掘的硬负样本

负样本挖掘

挖掘模型: 静态双语模型 sts-mrl-en-de-base-v1
挖掘参数:
- range_max: 1000
- relative_margin: 0.05
- sampling_strategy: "top"
- num_negatives: 5
未挖掘负样本的数据: 623,000条唯一性问题-答案对被保存在 gooaq_mt_german_0_hard_negatives

使用方法

python from datasets import load_dataset dataset = load_dataset(MarcGrumpyOlejak/gooaq_mt_german_5_hard_negatives)

建议的训练/测试分割

python dataset_dict = dataset[train].train_test_split(test_size=10_000, seed=12)

搜集汇总

数据集介绍

构建方式

该数据集基于机器翻译的德语版GooAQ数据集构建，通过静态双语模型sts-mrl-en-de-base-v1自动挖掘负样本。在构建过程中，采用范围最大值1000的采样策略，确保每个问题-答案对挖掘5个负样本，同时设置相对边际为0.05，以保证负样本与锚点的相似度不超过正样本的95%。这一方法借鉴了NV-Retriever论文中的思路，并基于USearch实现了自定义的负样本挖掘算法。

特点

数据集包含约208万条德语问题-答案-负样本三元组及五元组，每条数据均包含原始问题、答案及5个高质量负样本。其独特之处在于通过严格的相似度阈值筛选负样本，确保负样本既具有足够的挑战性又不偏离语义范畴。此外，数据集还特别保留了62.3万条无法挖掘负样本的独特数据，为研究提供了更全面的语料资源。

使用方法

使用HuggingFace的datasets库可直接加载该数据集，默认包含question_mt_de、answer_mt_de及5个负样本字段。研究人员可采用建议的train_test_split方法（测试集1万条，随机种子12）快速划分训练测试集。该数据集专为训练句子嵌入模型设计，特别适合用于德语问答系统的负采样对比学习任务。

背景与挑战

背景概述

gooaq_mt_german_5_hard_negatives数据集源自Google Answers to Google Questions（GooAQ）项目的德语机器翻译版本，由MarcGrumpyOlejak等研究人员构建。该数据集旨在为德语自然语言处理任务提供高质量的问答对及困难负样本，特别适用于句子嵌入模型的训练。GooAQ原始英文数据集由AllenAI开发，以其大规模和高质量的问答对著称，而德语版本通过机器翻译和负样本挖掘技术进一步扩展了其应用范围。该数据集的推出显著提升了德语问答系统和信息检索模型的性能，填补了非英语语言数据资源的空白。

当前挑战

构建gooaq_mt_german_5_hard_negatives数据集面临多重挑战。在领域问题层面，如何确保机器翻译的问答对在德语语境中保持语义一致性和流畅性是一大难题，这直接影响了后续负样本挖掘的质量。在构建过程中，困难负样本的自动挖掘技术尤为关键，需平衡相似度阈值与样本多样性，避免因过度筛选导致数据冗余或信息损失。此外，部分独特问答对因质量过高或过低而无法生成有效负样本，需通过单独的数据集保存，增加了数据管理的复杂性。这些挑战对数据集的完整性和模型训练效果提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，gooaq_mt_german_5_hard_negatives数据集为德语问答系统的训练与评估提供了重要支持。该数据集通过精心构建的问题-答案-负样本三元组，为句子嵌入模型的训练提供了丰富的对比学习素材。研究人员可以利用该数据集训练出能够准确区分相关答案与干扰项的深度神经网络模型，从而提升问答系统的语义理解能力。

衍生相关工作

该数据集启发了多项关于跨语言负样本挖掘的创新研究。基于其构建方法，研究者们开发了更高效的硬负样本挖掘算法，如动态边界调整策略和多语言联合训练框架。相关工作还探索了如何将这种挖掘范式扩展到其他低资源语言，推动了跨语言表示学习领域的技术进步。

数据集最近研究