msmarco-ja-hard-negatives

Hugging Face2024-11-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/hotchpotch/msmarco-ja-hard-negatives

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集基于MS MARCO的日本语翻译数据，进行了硬负样本挖掘，并使用SPLADE模型与mMARCO数据集进行了比较。数据集包含两个配置：collection和dataset，分别用于不同的特征和分割。数据集的评估结果显示，在多个任务上，本数据集的表现优于mMARCO的日本语翻译数据。

This dataset is constructed based on the Japanese-translated data of MS MARCO, with hard negative mining applied, and benchmarked against the mMARCO dataset using the SPLADE model. The dataset includes two configurations: collection and dataset, which are tailored for distinct features and data splits respectively. Evaluation results demonstrate that this dataset outperforms the Japanese-translated version of mMARCO across a range of tasks.

创建时间：

2024-11-18

原始信息汇总

msmarco-ja-hard-negatives 数据集概述

数据集信息

配置

collection
- 特征:
  - text: 字符串
  - text_en: 字符串
- 分割:
  - train: 8841823个样本，6691198003字节
- 下载大小: 3589163684字节
- 数据集大小: 6691198003字节
dataset
- 特征:
  - anc: 字符串
  - anc_en: 字符串
  - pos_ids: 整数序列
  - neg_ids.japanese-splade-base-v1-mmarco-only.top100: 整数序列
  - neg_sims.japanese-splade-base-v1-mmarco-only.top100: 浮点数序列
  - neg_ids.japanese-splade-base-v1-mmarco-only.other100: 整数序列
  - neg_sims.japanese-splade-base-v1-mmarco-only.other100: 浮点数序列
  - score.bge-reranker-v2-m3.pos_ids: 浮点数序列
  - score.bge-reranker-v2-m3.neg_ids.japanese-splade-base-v1-mmarco-only.top100: 浮点数序列
  - score.bge-reranker-v2-m3.neg_ids.japanese-splade-base-v1-mmarco-only.other100: 浮点数序列
- 分割:
  - train: 502931个样本，2481771934字节
- 下载大小: 2024787258字节
- 数据集大小: 2481771934字节

语言

日语 (ja)
英语 (en)

数据处理

翻译数据的正则化、过滤和选择

正则化:
- 使用Unicode正则化 (NFKC)
数据集(query)的过滤和选择:
- 移除cosine相似度大于0.98的样本
- 移除包含完整英文原文的样本
- 选择相似度最高的样本
collection的选择:
- 使用BAAI/bge-reranker-v2-m3的分数选择最高分的样本
- 对于不包含在正例中的数据，进行随机采样

硬负样本的提取

使用japanese-splade-base-v1-mmarco-only提取相似度最高的100个样本和随机选择的100个样本

评分

使用bge-reranker-v2-m3重排器对query和硬负样本的collection进行评分

评估

评估实验

比较两个数据集:
1. mmacro(ja) (mMARCO数据集的日语翻译数据)
2. msmarco-ja (本数据集)

卡方检验评估

指标:
- 总数
- Positive数
- Positive率
结果:
- 在阈值0.7和0.8下，msmarco-ja与mmarco(ja)之间存在统计显著差异
- msmarco-ja的Positive率高于mmarco(ja)

JMTEB评估

评估方法:
- 对两个数据集进行相同的硬负样本采样和评分
- 使用JMTEB retrieval任务进行评估
结果:
- msmarco-ja在大多数项目中表现更好

注意事项

硬负样本的提取可能导致正例和负例的评分混淆
建议使用重排器评分作为阈值进行过滤
使用SPLADE模型进行硬负样本提取，可能不适合密集向量模型的学习

许可证

与MSMARCO相同的许可证

搜集汇总

数据集介绍

构建方式

msmarco-ja-hard-negatives数据集基于MS MARCO的日语翻译数据，通过一系列精细的处理步骤构建而成。首先，对翻译数据进行Unicode标准化（NFKC）处理，并过滤掉与原始英文高度相似（余弦相似度≥0.98）的查询数据。随后，利用BAAI/bge-reranker-v2-m3模型对正例进行评分，选择得分最高的文档作为正例，同时对非正例数据进行随机采样。最后，通过japanese-splade-base-v1-mmarco-only模型从候选文档中提取前100个相似文档以及从101到1000位中随机选取的100个文档作为硬负例，并利用bge-reranker-v2-m3模型对这些负例进行评分。

特点

该数据集的特点在于其高质量的硬负例挖掘和精细的评分机制。通过SPLADE模型和bge-reranker-v2-m3模型的结合，能够有效提取与查询语义相近但并非正例的文档，从而为信息检索模型的训练提供更具挑战性的负例。此外，数据集在正例选择上采用了严格的评分阈值，确保正例的质量。与mMARCO数据集相比，msmarco-ja-hard-negatives在正例率和检索性能上均表现出显著优势，尤其在JMTEB检索任务中，其平均得分高于mMARCO数据集。

使用方法

该数据集主要用于信息检索模型的训练和评估。在使用时，建议根据bge-reranker-v2-m3模型的评分阈值对正例和负例进行筛选，以避免低质量样本对模型训练的负面影响。对于硬负例的使用，需注意其与密向量模型的兼容性，建议在密向量模型训练时采用密向量方法进行硬负例挖掘。此外，数据集还可用于对比实验，评估不同翻译和过滤策略对检索性能的影响。

背景与挑战

背景概述

msmarco-ja-hard-negatives数据集是基于MS MARCO的日语翻译数据，经过一系列处理生成的硬负样本数据集。该数据集由hpprc团队在HuggingFace平台上发布，旨在提升日语信息检索模型的性能。数据集的核心研究问题在于如何通过硬负样本挖掘技术，优化检索模型在日语语境下的表现。通过对翻译数据的规范化、过滤与选择，以及利用SPLADE模型进行硬负样本提取，该数据集在信息检索领域展现了显著的影响力，尤其是在与mMARCO数据集的对比实验中，msmarco-ja-hard-negatives在多个评估指标上均表现出更高的准确性和一致性。

当前挑战

msmarco-ja-hard-negatives数据集在构建和应用过程中面临多重挑战。首先，硬负样本的提取依赖于SPLADE模型，该模型基于稀疏向量表示，可能导致与密集向量模型在硬负样本选择上的不一致性，进而影响模型的训练效果。其次，数据集中存在部分正例样本的评分较低，或负例样本的评分较高的情况，这可能源于原始数据的质量问题或翻译过程中的信息丢失，若直接用于训练，可能对模型性能产生负面影响。此外，数据集的构建过程涉及复杂的过滤和评分机制，如何在保证数据质量的同时，提升数据集的多样性和代表性，仍是一个亟待解决的问题。

常用场景

经典使用场景

msmarco-ja-hard-negatives数据集在信息检索领域具有广泛的应用，特别是在跨语言检索和文档排序任务中。该数据集通过引入硬负样本（hard negatives）和基于SPLADE模型的相似度计算，显著提升了模型在复杂查询场景下的表现。研究人员通常利用该数据集来训练和评估信息检索模型，尤其是在处理日语和英语混合文本时，能够有效提高模型的跨语言理解能力。

解决学术问题

msmarco-ja-hard-negatives数据集解决了信息检索领域中的多个关键问题。首先，它通过引入硬负样本，显著改善了模型在区分相似文档时的性能，从而提高了检索结果的准确性。其次，该数据集通过跨语言翻译和相似度计算，解决了跨语言检索中的语义对齐问题，为多语言信息检索提供了高质量的训练数据。此外，数据集还通过严格的过滤和评分机制，确保了正负样本的质量，为模型训练提供了更可靠的基准。

衍生相关工作

msmarco-ja-hard-negatives数据集衍生了许多经典的研究工作，特别是在跨语言信息检索和文档排序领域。例如，基于该数据集的SPLADE模型在多个跨语言检索任务中取得了显著的效果提升。此外，研究人员还利用该数据集开发了多种改进的信息检索算法，如基于BERT的跨语言检索模型和基于深度学习的文档排序模型。这些工作不仅推动了信息检索技术的发展，还为多语言信息处理提供了新的研究思路。

以上内容由遇见数据集搜集并总结生成