sentence-transformers/miracl
收藏Hugging Face2024-06-20 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/miracl
下载链接
链接失效反馈官方服务:
资源简介:
MIRACL数据集是一个多语言数据集,支持包括英语、阿拉伯语、孟加拉语、西班牙语、波斯语、芬兰语、法语、印地语、印尼语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语和中文在内的多种语言。该数据集主要用于特征提取和句子相似性任务。数据集包含多种配置,每种配置都有不同的特征和分割,主要关注三元组数据结构(anchor、positive、negative)。README文件中还提供了每种配置的字节数、示例数、下载大小和数据集大小的详细信息。
MIRACL数据集是一个多语言数据集,支持包括英语、阿拉伯语、孟加拉语、西班牙语、波斯语、芬兰语、法语、印地语、印尼语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语和中文在内的多种语言。该数据集主要用于特征提取和句子相似性任务。数据集包含多种配置,每种配置都有不同的特征和分割,主要关注三元组数据结构(anchor、positive、negative)。README文件中还提供了每种配置的字节数、示例数、下载大小和数据集大小的详细信息。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
基本信息
- 名称: MIRACL
- 语言:
- 阿拉伯语 (ar)
- 孟加拉语 (bn)
- 英语 (en)
- 西班牙语 (es)
- 波斯语 (fa)
- 芬兰语 (fi)
- 法语 (fr)
- 印地语 (hi)
- 印度尼西亚语 (id)
- 日语 (ja)
- 韩语 (ko)
- 俄语 (ru)
- 斯瓦希里语 (sw)
- 泰卢固语 (te)
- 泰语 (th)
- 中文 (zh)
- 大小类别: 1M<n<10M
- 任务类别:
- 特征提取
- 句子相似度
- 标签: sentence-transformers
数据集配置
阿拉伯语 (ar)
-
ar-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 7338298
- 样本数: 3495
- train
- 下载大小: 3793733
- 数据集大小: 7338298
- 特征:
-
ar-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train
- 字节数: 614974789
- 样本数: 6217
- train
- 下载大小: 183698230
- 数据集大小: 614974789
- 特征:
-
ar-triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 1329072580
- 样本数: 621700
- train
- 下载大小: 190356727
- 数据集大小: 1329072580
- 特征:
孟加拉语 (bn)
-
bn-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 5851104
- 样本数: 1631
- train
- 下载大小: 2134558
- 数据集大小: 5851104
- 特征:
-
bn-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train
- 字节数: 648041695
- 样本数: 3859
- train
- 下载大小: 111300972
- 数据集大小: 648041695
- 特征:
-
bn-triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 1407892435
- 样本数: 385900
- train
- 下载大小: 124436907
- 数据集大小: 1407892435
- 特征:
英语 (en)
-
en-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 4142418
- 样本数: 2863
- train
- 下载大小: 2680141
- 数据集大小: 4142418
- 特征:
-
en-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train
- 字节数: 525621583
- 样本数: 7899
- train
- 下载大小: 129756765
- 数据集大小: 525621583
- 特征:
-
en-triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 1130254579
- 样本数: 789900
- train
- 下载大小: 137562720
- 数据集大小: 1130254579
- 特征:
西班牙语 (es)
-
es-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 2947959
- 样本数: 2162
- train
- 下载大小: 1931575
- 数据集大小: 2947959
- 特征:
-
es-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train
- 字节数: 668658409
- 样本数: 10025
- train
- 下载大小: 102754016
- 数据集大小: 668658409
- 特征:
-
es-triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 1373641963
- 样本数: 1002500
- train
- 下载大小: 127817038
- 数据集大小: 1373641963
- 特征:
波斯语 (fa)
-
fa-triplet
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 3941531
- 样本数: 2107
- train
- 下载大小: 1977924
- 数据集大小: 3941531
- 特征:
-
fa-triplet-100
- 特征:
- anchor: string
- positive: string
- negative_1 至 negative_100: string
- 分割:
- train
- 字节数: 668658409
- 样本数: 10025
- train
- 下载大小: 102754016
- 数据集大小: 668658409
- 特征:
-
fa-triplet-all
- 特征:
- anchor: string
- positive: string
- negative: string
- 分割:
- train
- 字节数: 1373641963
- 样本数: 1002500
- train
- 下载大小: 127817038
- 数据集大小: 1373641963
- 特征:
搜集汇总
数据集介绍

构建方式
在跨语言信息检索领域,MIRACL数据集通过精心设计的构建流程,为多语言句子嵌入模型提供了高质量的监督信号。该数据集以维基百科文档为基础,采用三重态采样策略,从同一文档中选取锚点句与正例句,同时从不同文档中筛选负例句,确保语义关联的准确性与区分度。构建过程涵盖了英语、阿拉伯语、中文等18种语言,每种语言均配置了标准三重态、百负例扩展及全量版本,通过自动化流水线实现了大规模多语言对齐语料的生成,为模型训练提供了丰富的跨语言对比样本。
特点
MIRACL数据集的显著特征在于其广泛的语言覆盖与灵活的样本结构,支持从英语到斯瓦希里语等18种语言的句子相似性计算。数据集提供了多样化的配置选项,包括基础三重态格式以及包含多达100个负例的扩展版本,能够适应不同训练场景的需求。其样本规模在百万至千万级别,确保了训练数据的充分性与多样性。该数据集专为句子嵌入优化设计,通过锚点-正例-负例的对比结构,有效促进了模型对跨语言语义等价性的学习,为多语言检索任务奠定了坚实基础。
使用方法
使用MIRACL数据集时,研究人员可通过HuggingFace平台直接加载特定语言配置,例如`ar-triplet`或`en-triplet-100`,以获取标准化的训练样本。该数据集适用于句子变换器的监督训练,通常结合对比损失函数如Triplet Loss或Multiple Negatives Ranking Loss,以优化嵌入空间中的语义距离。用户可根据计算资源选择基础三重态进行快速实验,或利用百负例版本增强模型区分能力。训练完成后,所得嵌入可直接应用于跨语言检索、语义相似度计算等下游任务,实现高效的多语言语义表示学习。
背景与挑战
背景概述
在自然语言处理领域,跨语言信息检索与语义相似度计算一直是核心研究议题,尤其在全球多语言环境下,如何实现高效准确的语义对齐成为关键挑战。MIRACL数据集由国际研究团队于近年创建,旨在为多语言句子嵌入模型提供高质量的训练与评估资源。该数据集覆盖英语、中文、阿拉伯语等18种语言,通过精心构建的锚点-正例-负例三元组结构,致力于解决跨语言语义匹配与检索任务中的语义鸿沟问题。其广泛的语言覆盖与大规模数据量为多语言模型的研究与应用奠定了坚实基础,显著推动了跨语言自然语言处理技术的发展。
当前挑战
MIRACL数据集所针对的跨语言语义相似度计算领域,面临语言多样性带来的语义表示不一致、低资源语言数据稀缺以及文化语境差异等固有挑战。在构建过程中,数据收集需平衡多种语言的覆盖广度与标注质量,确保不同语言对之间的语义对齐准确性。同时,三元组数据的生成需克服负例采样中的语义模糊性,避免引入噪声影响模型训练效果。此外,大规模多语言数据的存储与处理也带来了计算资源与效率方面的技术难题,这些挑战共同构成了数据集应用与扩展的核心瓶颈。
常用场景
经典使用场景
在跨语言信息检索领域,MIRACL数据集以其多语言三元组结构,为训练句子嵌入模型提供了经典场景。该数据集通过锚点句、正例句和负例句的精心构建,使模型能够学习跨语言的语义对齐,从而在文档检索、问答系统等任务中实现精准的语义匹配。其覆盖的18种语言,包括英语、中文、阿拉伯语等,为研究多语言表示学习提供了丰富的实验基础,推动了跨语言语义相似度计算的发展。
实际应用
在实际应用中,MIRACL数据集支撑了多语言搜索引擎、智能客服和内容推荐系统的开发。例如,企业利用该数据集训练的模型,能够实现跨语言文档检索,帮助用户以母语查询外语资料;教育平台则借助其语义匹配能力,提供多语言学习资源的精准推荐。这些应用不仅提升了用户体验,还促进了全球化服务中的信息流通效率,体现了数据集在商业和社会场景中的实用价值。
衍生相关工作
基于MIRACL数据集,衍生了一系列经典研究工作,如多语言对比学习框架和跨语言检索模型的优化。研究者利用其三元组结构,开发了高效的训练策略,提升了句子嵌入的泛化能力;同时,该数据集也催生了针对低资源语言的评估基准,推动了多语言NLP模型的公平性研究。这些工作不仅扩展了数据集的学术影响力,还为后续跨语言人工智能系统的创新提供了重要参考。
以上内容由遇见数据集搜集并总结生成



