five

msmarco-ja-hard-negatives

收藏
Hugging Face2024-11-18 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/hotchpotch/msmarco-ja-hard-negatives
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集基于MS MARCO的日本语翻译数据,进行了硬负样本挖掘,并使用SPLADE模型与mMARCO数据集进行了比较。数据集包含两个配置:collection和dataset,分别用于不同的特征和分割。数据集的评估结果显示,在多个任务上,本数据集的表现优于mMARCO的日本语翻译数据。

This dataset is constructed based on the Japanese-translated data of MS MARCO, with hard negative mining applied, and benchmarked against the mMARCO dataset using the SPLADE model. The dataset includes two configurations: collection and dataset, which are tailored for distinct features and data splits respectively. Evaluation results demonstrate that this dataset outperforms the Japanese-translated version of mMARCO across a range of tasks.
创建时间:
2024-11-18
原始信息汇总

msmarco-ja-hard-negatives 数据集概述

数据集信息

配置

  • collection

    • 特征:
      • text: 字符串
      • text_en: 字符串
    • 分割:
      • train: 8841823个样本,6691198003字节
    • 下载大小: 3589163684字节
    • 数据集大小: 6691198003字节
  • dataset

    • 特征:
      • anc: 字符串
      • anc_en: 字符串
      • pos_ids: 整数序列
      • neg_ids.japanese-splade-base-v1-mmarco-only.top100: 整数序列
      • neg_sims.japanese-splade-base-v1-mmarco-only.top100: 浮点数序列
      • neg_ids.japanese-splade-base-v1-mmarco-only.other100: 整数序列
      • neg_sims.japanese-splade-base-v1-mmarco-only.other100: 浮点数序列
      • score.bge-reranker-v2-m3.pos_ids: 浮点数序列
      • score.bge-reranker-v2-m3.neg_ids.japanese-splade-base-v1-mmarco-only.top100: 浮点数序列
      • score.bge-reranker-v2-m3.neg_ids.japanese-splade-base-v1-mmarco-only.other100: 浮点数序列
    • 分割:
      • train: 502931个样本,2481771934字节
    • 下载大小: 2024787258字节
    • 数据集大小: 2481771934字节

语言

  • 日语 (ja)
  • 英语 (en)

数据处理

翻译数据的正则化、过滤和选择

  • 正则化:
    • 使用Unicode正则化 (NFKC)
  • 数据集(query)的过滤和选择:
    • 移除cosine相似度大于0.98的样本
    • 移除包含完整英文原文的样本
    • 选择相似度最高的样本
  • collection的选择:
    • 使用BAAI/bge-reranker-v2-m3的分数选择最高分的样本
    • 对于不包含在正例中的数据,进行随机采样

硬负样本的提取

评分

  • 使用bge-reranker-v2-m3重排器对query和硬负样本的collection进行评分

评估

评估实验

  • 比较两个数据集:
    1. mmacro(ja) (mMARCO数据集的日语翻译数据)
    2. msmarco-ja (本数据集)

卡方检验评估

  • 指标:
    • 总数
    • Positive数
    • Positive率
  • 结果:
    • 在阈值0.7和0.8下,msmarco-ja与mmarco(ja)之间存在统计显著差异
    • msmarco-ja的Positive率高于mmarco(ja)

JMTEB评估

  • 评估方法:
    • 对两个数据集进行相同的硬负样本采样和评分
    • 使用JMTEB retrieval任务进行评估
  • 结果:
    • msmarco-ja在大多数项目中表现更好

注意事项

  • 硬负样本的提取可能导致正例和负例的评分混淆
  • 建议使用重排器评分作为阈值进行过滤
  • 使用SPLADE模型进行硬负样本提取,可能不适合密集向量模型的学习

许可证

  • 与MSMARCO相同的许可证
搜集汇总
数据集介绍
main_image_url
构建方式
msmarco-ja-hard-negatives数据集基于MS MARCO的日语翻译数据,通过一系列精细的处理步骤构建而成。首先,对翻译数据进行Unicode标准化(NFKC)处理,并过滤掉与原始英文高度相似(余弦相似度≥0.98)的查询数据。随后,利用BAAI/bge-reranker-v2-m3模型对正例进行评分,选择得分最高的文档作为正例,同时对非正例数据进行随机采样。最后,通过japanese-splade-base-v1-mmarco-only模型从候选文档中提取前100个相似文档以及从101到1000位中随机选取的100个文档作为硬负例,并利用bge-reranker-v2-m3模型对这些负例进行评分。
特点
该数据集的特点在于其高质量的硬负例挖掘和精细的评分机制。通过SPLADE模型和bge-reranker-v2-m3模型的结合,能够有效提取与查询语义相近但并非正例的文档,从而为信息检索模型的训练提供更具挑战性的负例。此外,数据集在正例选择上采用了严格的评分阈值,确保正例的质量。与mMARCO数据集相比,msmarco-ja-hard-negatives在正例率和检索性能上均表现出显著优势,尤其在JMTEB检索任务中,其平均得分高于mMARCO数据集。
使用方法
该数据集主要用于信息检索模型的训练和评估。在使用时,建议根据bge-reranker-v2-m3模型的评分阈值对正例和负例进行筛选,以避免低质量样本对模型训练的负面影响。对于硬负例的使用,需注意其与密向量模型的兼容性,建议在密向量模型训练时采用密向量方法进行硬负例挖掘。此外,数据集还可用于对比实验,评估不同翻译和过滤策略对检索性能的影响。
背景与挑战
背景概述
msmarco-ja-hard-negatives数据集是基于MS MARCO的日语翻译数据,经过一系列处理生成的硬负样本数据集。该数据集由hpprc团队在HuggingFace平台上发布,旨在提升日语信息检索模型的性能。数据集的核心研究问题在于如何通过硬负样本挖掘技术,优化检索模型在日语语境下的表现。通过对翻译数据的规范化、过滤与选择,以及利用SPLADE模型进行硬负样本提取,该数据集在信息检索领域展现了显著的影响力,尤其是在与mMARCO数据集的对比实验中,msmarco-ja-hard-negatives在多个评估指标上均表现出更高的准确性和一致性。
当前挑战
msmarco-ja-hard-negatives数据集在构建和应用过程中面临多重挑战。首先,硬负样本的提取依赖于SPLADE模型,该模型基于稀疏向量表示,可能导致与密集向量模型在硬负样本选择上的不一致性,进而影响模型的训练效果。其次,数据集中存在部分正例样本的评分较低,或负例样本的评分较高的情况,这可能源于原始数据的质量问题或翻译过程中的信息丢失,若直接用于训练,可能对模型性能产生负面影响。此外,数据集的构建过程涉及复杂的过滤和评分机制,如何在保证数据质量的同时,提升数据集的多样性和代表性,仍是一个亟待解决的问题。
常用场景
经典使用场景
msmarco-ja-hard-negatives数据集在信息检索领域具有广泛的应用,特别是在跨语言检索和文档排序任务中。该数据集通过引入硬负样本(hard negatives)和基于SPLADE模型的相似度计算,显著提升了模型在复杂查询场景下的表现。研究人员通常利用该数据集来训练和评估信息检索模型,尤其是在处理日语和英语混合文本时,能够有效提高模型的跨语言理解能力。
解决学术问题
msmarco-ja-hard-negatives数据集解决了信息检索领域中的多个关键问题。首先,它通过引入硬负样本,显著改善了模型在区分相似文档时的性能,从而提高了检索结果的准确性。其次,该数据集通过跨语言翻译和相似度计算,解决了跨语言检索中的语义对齐问题,为多语言信息检索提供了高质量的训练数据。此外,数据集还通过严格的过滤和评分机制,确保了正负样本的质量,为模型训练提供了更可靠的基准。
衍生相关工作
msmarco-ja-hard-negatives数据集衍生了许多经典的研究工作,特别是在跨语言信息检索和文档排序领域。例如,基于该数据集的SPLADE模型在多个跨语言检索任务中取得了显著的效果提升。此外,研究人员还利用该数据集开发了多种改进的信息检索算法,如基于BERT的跨语言检索模型和基于深度学习的文档排序模型。这些工作不仅推动了信息检索技术的发展,还为多语言信息处理提供了新的研究思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作