msmarco-ja

Hugging Face2024-11-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/hpprc/msmarco-ja

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于多语言文本和模型标签的训练。它包含英文和日文文本，以及三个不同模型的分类标签。数据集分为一个训练集，包含49857个样本，总大小为39285647.0字节。

创建时间：

2024-11-08

原始信息汇总

MS MARCO 日语数据集

数据集概述

数据集名称: MS MARCO 日语数据集
配置名称: collection

数据特征

id: 整数类型
text_en: 字符串类型，英文文本
text_ja: 字符串类型，日语文本
model: 分类标签类型，包含以下类别：
- calm3-22b
- llmjp3-13b
- phi3.5-mini
- phi3.5-moe
- qwen2.5-32b
- swallow-mx

数据分割

train:
- 样本数量: 5,024,542
- 数据大小: 3,912,072,428 字节

数据集大小

下载大小: 1,881,190,024 字节
数据集大小: 3,912,072,428 字节

搜集汇总

数据集介绍

构建方式

msmarco-ja数据集基于英语MSMARCO数据集，通过多种日语大型语言模型（LLM）进行并行翻译构建而成。为确保翻译质量，每个翻译实例至少经过CALM3 22B模型的一次翻译处理。数据集包含多个子集，如`collection`和`dataset`，分别对应原始MSMARCO数据集的`collection`和`dataset`子集的行号。此外，`collection-sim`和`dataset-sim`子集通过Multilingual E5 large模型计算英语与日语文本的余弦相似度，而`collection-filtered`和`dataset-filtered`子集则基于相似度筛选出最佳翻译结果。

使用方法

msmarco-ja数据集适用于机器翻译、跨语言信息检索等任务。用户可通过加载不同的子集，如`collection`或`dataset`，获取原始文本及其对应的日语翻译。对于需要高质量翻译的场景，可使用`collection-filtered`和`dataset-filtered`子集，这些子集已筛选出最佳翻译结果。此外，`collection-sim`和`dataset-sim`子集提供了翻译结果的余弦相似度评分，可用于进一步分析翻译质量或进行模型优化。

背景与挑战

背景概述

MSMARCO-Ja数据集是基于英语MSMARCO数据集，通过使用日语大型语言模型（LLM）进行翻译而构建的日语数据集。该数据集由多个研究机构共同开发，旨在提升日语翻译质量，从而优化后续模型的性能。MSMARCO-Ja的创建背景源于对现有日语翻译数据集质量的担忧，尤其是MMARCO数据集在翻译质量上的不足。通过引入多种LLM模型进行多次并行翻译，MSMARCO-Ja在翻译多样性和准确性上取得了显著进展，特别是使用了CALM3 22B模型确保每个样本至少被翻译一次。该数据集在自然语言处理领域，尤其是跨语言信息检索和机器翻译任务中，具有重要的研究价值和应用潜力。

当前挑战

MSMARCO-Ja数据集在构建和应用过程中面临多重挑战。首先，跨语言翻译的准确性始终是一个核心问题，尤其是在处理复杂的语义结构和文化差异时，如何确保翻译结果既忠实于原文又符合日语表达习惯，成为一大难题。其次，数据集的构建过程中，由于使用了多种LLM模型进行多次翻译，如何有效整合不同模型的输出并筛选出最优翻译结果，需要复杂的算法支持。此外，数据集中包含大量重复翻译样本，如何在保证多样性的同时避免冗余，也是数据处理中的一大挑战。最后，跨语言信息检索任务中，如何利用该数据集提升模型的检索性能，尤其是在处理低资源语言时，仍需进一步探索和优化。

常用场景

经典使用场景

msmarco-ja数据集在自然语言处理领域中被广泛应用于跨语言信息检索任务。通过将英语的MSMARCO数据集翻译为日语，该数据集为研究者提供了一个高质量的日英双语语料库，特别适用于训练和评估跨语言检索模型。其多模型翻译策略确保了翻译的多样性和质量，使得模型能够在不同翻译版本上进行泛化训练。

解决学术问题

msmarco-ja数据集解决了跨语言信息检索中的翻译质量不一致问题。通过引入多个高质量的日语翻译模型，该数据集显著提升了翻译的准确性和一致性，从而为后续的跨语言检索模型提供了更可靠的训练数据。此外，数据集中的余弦相似度计算和过滤机制进一步优化了翻译对的质量，为学术研究提供了更精确的实验基础。

实际应用

在实际应用中，msmarco-ja数据集被广泛用于构建和优化跨语言搜索引擎。例如，企业可以利用该数据集训练多语言搜索引擎，以支持用户在英语和日语之间的无缝信息检索。此外，该数据集还可用于开发多语言问答系统，帮助用户在不同语言环境中获取准确的信息。

数据集最近研究