miracl

Hugging Face2024-06-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/sentence-transformers/miracl

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL数据集是一个多语言的句子相似性分析数据集，支持包括中文在内的多种语言，大小在1M到10M之间。该数据集主要用于机器学习中的特征提取和句子相似性任务，适用于sentence-transformers模型。每个数据集配置详细记录了训练数据的特征、大小和分割情况，为研究人员提供了丰富的语言资源。

创建时间：

2024-06-19

原始信息汇总

数据集概述

基本信息

语言支持: 英语、阿拉伯语、孟加拉语、西班牙语、波斯语、芬兰语、法语、印地语、印度尼西亚语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语、中文
数据集大小分类: 1M<n<10M
任务分类: 特征提取、句子相似度
数据集名称: MIRACL
标签: sentence-transformers

数据集配置详情

阿拉伯语 (ar)

ar-triplet
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 3495个样本, 7338298字节
- 下载大小: 3793733字节
- 数据集大小: 7338298字节
ar-triplet-100
- 特征:
  - anchor: string
  - positive: string
  - 100个negative特征, 类型均为string
- 分割:
  - train: 6217个样本, 614974789字节
- 下载大小: 183698230字节
- 数据集大小: 614974789字节
ar-triplet-all
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 621700个样本, 1329072580字节
- 下载大小: 190356727字节
- 数据集大小: 1329072580字节

孟加拉语 (bn)

bn-triplet
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 1631个样本, 5851104字节
- 下载大小: 2134558字节
- 数据集大小: 5851104字节
bn-triplet-100
- 特征:
  - anchor: string
  - positive: string
  - 100个negative特征, 类型均为string
- 分割:
  - train: 3859个样本, 648041695字节
- 下载大小: 111300972字节
- 数据集大小: 648041695字节
bn-triplet-all
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 385900个样本, 1407892435字节
- 下载大小: 124436907字节
- 数据集大小: 1407892435字节

英语 (en)

en-triplet
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 2863个样本, 4142418字节
- 下载大小: 2680141字节
- 数据集大小: 4142418字节
en-triplet-100
- 特征:
  - anchor: string
  - positive: string
  - 100个negative特征, 类型均为string
- 分割:
  - train: 7899个样本, 525621583字节
- 下载大小: 129756765字节
- 数据集大小: 525621583字节
en-triplet-all
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 789900个样本, 1130254579字节
- 下载大小: 137562720字节
- 数据集大小: 1130254579字节

西班牙语 (es)

es-triplet
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 2162个样本, 2947959字节
- 下载大小: 1931575字节
- 数据集大小: 2947959字节
es-triplet-100
- 特征:
  - anchor: string
  - positive: string
  - 100个negative特征, 类型均为string
- 分割:
  - train: 10025个样本, 668658409字节
- 下载大小: 102754016字节
- 数据集大小: 668658409字节
es-triplet-all
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 1002500个样本, 1373641963字节
- 下载大小: 127817038字节
- 数据集大小: 1373641963字节

波斯语 (fa)

fa-triplet
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 2107个样本, 3941531字节
- 下载大小: 1977924字节
- 数据集大小: 3941531字节
fa-triplet-100
- 特征:
  - anchor: string
  - positive: string
  - 100个negative特征, 类型均为string
- 分割:
  - train: 10025个样本, 668658409字节
- 下载大小: 102754016字节
- 数据集大小: 668658409字节
fa-triplet-all
- 特征:
  - anchor: string
  - positive: string
  - negative: string
- 分割:
  - train: 1002500个样本, 1373641963字节
- 下载大小: 127817038字节
- 数据集大小: 1373641963字节

搜集汇总

数据集介绍

构建方式

MIRACL数据集是一个多语言句子相似度数据集，涵盖了16种语言，包括英语、阿拉伯语、孟加拉语、西班牙语等。该数据集的构建基于三元组（anchor、positive、negative）的形式，通过从不同语言的文本中提取句子对，确保每个三元组中的anchor与positive句子在语义上相似，而与negative句子在语义上不相似。数据集的构建过程依赖于大规模的文本语料库，并通过人工或半自动的方式对句子进行标注和筛选，以确保数据的质量和多样性。

使用方法

MIRACL数据集主要用于句子相似度任务和特征提取任务。用户可以通过HuggingFace平台下载不同语言和配置的数据集，并根据需求选择适合的版本进行模型训练。数据集的使用方法包括加载数据、预处理句子对、构建训练集和验证集，并通过句子嵌入模型进行训练和评估。对于扩展版本的数据集，用户可以利用其丰富的负样本进行对比学习，进一步提升模型的性能。

背景与挑战

背景概述

MIRACL数据集是一个多语言句子相似度评估数据集，涵盖了包括英语、阿拉伯语、孟加拉语、西班牙语、波斯语、芬兰语、法语、印地语、印尼语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语和中文在内的16种语言。该数据集由多个研究机构共同创建，旨在为多语言自然语言处理任务提供高质量的基准数据。MIRACL数据集的核心研究问题在于如何通过句子嵌入技术提升跨语言句子相似度计算的准确性，尤其是在低资源语言环境下的表现。该数据集的出现极大地推动了多语言信息检索和句子相似度计算领域的研究，尤其是在跨语言任务中的应用。

当前挑战

MIRACL数据集面临的挑战主要体现在两个方面。首先，多语言句子相似度计算本身具有较高的复杂性，尤其是在处理低资源语言时，由于语料库的稀缺性，模型难以捕捉到足够的语义信息。其次，数据集的构建过程中，如何确保不同语言之间的句子对具有一致的质量和标注标准是一个巨大的挑战。不同语言的语法结构、文化背景和表达方式的差异使得标注过程需要高度的专业性和一致性。此外，数据集的规模庞大，如何高效地处理和存储这些数据，同时保证数据的多样性和代表性，也是构建过程中需要克服的技术难题。

常用场景

经典使用场景

MIRACL数据集广泛应用于多语言信息检索和句子相似度计算领域。其经典使用场景包括训练和评估跨语言的句子嵌入模型，尤其是在多语言环境下进行语义相似度匹配和检索任务。通过提供多种语言的句子三元组数据，MIRACL能够帮助模型学习不同语言之间的语义关联，从而提升跨语言检索系统的性能。

解决学术问题

MIRACL数据集解决了多语言信息检索中的关键问题，尤其是在低资源语言环境下的语义理解和检索任务。通过提供丰富的多语言句子对和三元组数据，该数据集为研究者提供了评估和改进跨语言检索模型的基准。其意义在于推动了多语言自然语言处理技术的发展，尤其是在资源匮乏的语言中，提升了信息检索的准确性和效率。

实际应用

在实际应用中，MIRACL数据集被广泛用于构建多语言搜索引擎、跨语言问答系统以及多语言文档分类系统。例如，企业可以利用该数据集训练多语言搜索引擎，使其能够理解并检索不同语言的用户查询。此外，该数据集还可用于开发跨语言对话系统，帮助用户在不同语言之间进行无缝交流。

数据集最近研究