five

sentence-transformers/mldr

收藏
Hugging Face2024-06-19 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/mldr
下载链接
链接失效反馈
官方服务:
资源简介:
MLDR数据集是一个单语数据集,用于特征提取和句子相似性任务。数据集按大小分类为100K<n<1M,并标记为sentence-transformers。它包括多种语言的配置,每种配置都有特定的特征和分割。特征通常包括anchor、positive和negative字符串,某些配置最多有20个负例。还提供了每个配置的数据集大小和下载大小。

The MLDR dataset is a monolingual dataset used for feature extraction and sentence similarity tasks. The dataset is categorized by size as 100K<n<1M and is tagged with sentence-transformers. It includes multiple configurations for different languages, each with specific features and splits. The features typically include anchor, positive, and negative strings, with some configurations having up to 20 negative examples. The dataset sizes and download sizes are also provided for each configuration.
提供机构:
sentence-transformers
原始信息汇总

数据集概述

基本信息

  • 多语言性: 单语种(monolingual)
  • 数据量: 100K<n<1M
  • 任务类别: 特征提取(feature-extraction)、句子相似度(sentence-similarity)
  • 标签: sentence-transformers
  • 数据集名称: MLDR

配置详情

ar-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 89773560
      • 样本数: 1817
  • 下载大小: 38357137
  • 数据集大小: 89773560

ar-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 911359304
      • 样本数: 1817
  • 下载大小: 355756978
  • 数据集大小: 911359304

ar-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 1765830800
      • 样本数: 36340
  • 下载大小: 346510123
  • 数据集大小: 1765830800

de-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 67945237
      • 样本数: 1847
  • 下载大小: 33611615
  • 数据集大小: 67945237

de-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 522968414
      • 样本数: 1847
  • 下载大小: 210467573
  • 数据集大小: 522968414

de-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 1345053973
      • 样本数: 36940
  • 下载大小: 204760382
  • 数据集大小: 1345053973

en-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 371120842
      • 样本数: 10000
  • 下载大小: 210599567
  • 数据集大小: 371120842

en-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 3495220484
      • 样本数: 10000
  • 下载大小: 1986032043
  • 数据集大小: 3495220484

en-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 7373345748
      • 样本数: 200000
  • 下载大小: 1965045120
  • 数据集大小: 7373345748

es-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 81253791
      • 样本数: 2254
  • 下载大小: 43382242
  • 数据集大小: 81253791

es-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 802897501
      • 样本数: 2254
  • 下载大小: 389699455
  • 数据集大小: 802897501

es-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 1616624371
      • 样本数: 45080
  • 下载大小: 377129890
  • 数据集大小: 1616624371

fr-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 60930593
      • 样本数: 1608
  • 下载大小: 32374640
  • 数据集大小: 60930593

fr-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 533051055
      • 样本数: 1608
  • 下载大小: 254975690
  • 数据集大小: 533051055

fr-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 1226217301
      • 样本数: 32160
  • 下载大小: 243195503
  • 数据集大小: 1226217301

hi-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 111004563
      • 样本数: 1618
  • 下载大小: 37095092
  • 数据集大小: 111004563

hi-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 1202794947
      • 样本数: 1618
  • 下载大小: 385575104
  • 数据集大小: 1202794947

hi-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 2236082701
      • 样本数: 32360
  • 下载大小: 343682959
  • 数据集大小: 2236082701

it-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 87570527
      • 样本数: 2151
  • 下载大小: 47558925
  • 数据集大小: 87570527

it-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 820503850
      • 样本数: 2151
  • 下载大小: 401755594
  • 数据集大小: 820503850

it-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 1736339817
      • 样本数: 43020
  • 下载大小: 385436701
  • 数据集大小: 1736339817

ja-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 91734476
      • 样本数: 2262
  • 下载大小: 46617451
  • 数据集大小: 91734476

ja-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 904143917
      • 样本数: 2262
  • 下载大小: 414443489
  • 数据集大小: 904143917

ja-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 1842926127
      • 样本数: 45240
  • 下载大小: 400101926
  • 数据集大小: 1842926127

ko-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 71630335
      • 样本数: 2198
  • 下载大小: 37190024
  • 数据集大小: 71630335

ko-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 730037557
      • 样本数: 2198
  • 下载大小: 343330881
  • 数据集大小: 730037557

ko-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 1435371745
      • 样本数: 43960
  • 下载大小: 335324951
  • 数据集大小: 1435371745

pt-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 77542677
      • 样本数: 1845
  • 下载大小: 41644485
  • 数据集大小: 77542677

pt-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 734568750
      • 样本数: 1845
  • 下载大小: 349585902
  • 数据集大小: 734568750

pt-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 1558494402
      • 样本数: 36900
  • 下载大小: 341303252
  • 数据集大小: 1558494402

ru-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 109231457
      • 样本数: 1864
  • 下载大小: 47336785
  • 数据集大小: 109231457

ru-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 1130341964
      • 样本数: 1864
  • 下载大小: 471570705
  • 数据集大小: 1130341964

ru-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 2181971634
      • 样本数: 37280
  • 下载大小: 434295395
  • 数据集大小: 2181971634

th-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 95553597
      • 样本数: 1970
  • 下载大小: 30775607
  • 数据集大小: 95553597

th-triplet-20

  • 特征:
    • anchor: string
    • positive: string
    • negative_1 至 negative_20: string
  • 分割:
    • train:
      • 字节数: 857643516
      • 样本数: 1970
  • 下载大小: 228940982
  • 数据集大小: 857643516

th-triplet-all

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 1892404150
      • 样本数: 39400
  • 下载大小: 223952474
  • 数据集大小: 1892404150

zh-triplet

  • 特征:
    • anchor: string
    • positive: string
    • negative: string
  • 分割:
    • train:
      • 字节数: 380393395
      • 样本数: 10000
  • 下载大小: 238703116
  • 数据集大小: 380393395

zh-triplet-20

  • **特征
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,句子嵌入模型的训练依赖于高质量的三元组数据。MLDR数据集通过系统化采集多语言文本,构建了以锚点句、正例句和负例句为核心的三元组结构。每个语言配置均包含基础版本、扩展版本及完整版本,其中扩展版本为每个锚点配备了多达20个负例,以增强模型对语义差异的辨识能力。数据集的构建注重语言覆盖的广度,涵盖了从阿拉伯语到中文的十余种语言,确保了跨语言语义表示学习的多样性需求。
使用方法
使用MLDR数据集时,研究者可根据目标语言选择相应的配置版本,例如'en-triplet'用于英语基础训练,或'zh-triplet-20'用于中文的增强学习。数据集可直接通过HuggingFace库加载,并集成到常见的深度学习框架中。在训练句子编码器时,三元组结构天然适配对比损失函数,如Triplet Loss,通过拉近锚点与正例的嵌入距离、推远锚点与负例的距离来优化模型。对于多语言联合训练,可混合不同语言的数据配置,以构建统一的跨语言语义空间。
背景与挑战
背景概述
在自然语言处理领域,句子嵌入技术旨在将文本语义映射到连续向量空间,以支持语义相似度计算与检索任务。MLDR数据集由sentence-transformers社区构建,专注于多语言句子表示学习,其核心研究问题在于解决跨语言语义对齐与句子级特征提取的挑战。该数据集通过构建多语言三元组样本,为训练句子编码器提供了丰富的监督信号,显著推动了多语言语义匹配模型的发展,并在信息检索、机器翻译等应用中展现出重要影响力。
当前挑战
MLDR数据集致力于解决多语言句子相似度计算中的语义对齐难题,其挑战在于如何准确捕捉不同语言间细微的语义差异,并克服低资源语言数据稀疏性带来的表征偏差。在构建过程中,数据采集需平衡多语言覆盖度与质量,确保三元组中正负样本的语义区分度;同时,处理非拉丁字符语言时,文本规范化与编码一致性也构成了技术瓶颈,影响了数据集的规模扩展与模型泛化能力。
常用场景
经典使用场景
在自然语言处理领域,句子嵌入技术致力于将文本语义映射到稠密向量空间。MLDR数据集以其精心构建的锚点-正例-负例三元组结构,为训练跨语言的句子嵌入模型提供了经典范例。该数据集覆盖英语、中文、德语等十余种语言,每个样本通过锚点与正例的语义相似性及与负例的差异性,引导模型学习细粒度的语义表示。研究者常利用该数据集微调预训练模型,优化句子相似度计算、语义检索等任务性能,其多语言特性尤为适合构建跨语言语义对齐系统。
解决学术问题
句子表示学习长期面临语义鸿沟与跨语言对齐的挑战。MLDR数据集通过大规模人工标注的三元组样本,有效缓解了监督信号稀疏性问题,为度量学习提供了高质量的训练基准。该数据集解决了多语言环境下语义相似度评估标准不统一、低资源语言表征学习困难等学术难题。其意义在于推动了对比学习在自然语言处理中的应用,促进了跨语言模型的可迁移性研究,为构建通用语义理解框架奠定了数据基础。
实际应用
在实际应用层面,基于MLDR训练的句子嵌入模型已广泛应用于智能客服系统。这些系统通过计算用户查询与知识库语句的语义相似度,实现精准的意图识别与答案匹配。在跨境电商场景中,多语言商品描述检索系统利用该数据集训练的模型,可跨越语言障碍匹配用户需求。此外,学术文献推荐、法律条文比对等专业领域也借助此类模型提升语义理解的准确性与效率。
数据集最近研究
最新研究方向
在自然语言处理领域,句子嵌入技术正朝着多语言和细粒度语义理解的方向演进。MLDR数据集以其涵盖阿拉伯语、德语、英语、西班牙语、法语、印地语、意大利语、日语、韩语、葡萄牙语、俄语、泰语和中文等多语言的三元组结构,为跨语言句子相似性研究提供了重要支撑。当前前沿研究聚焦于利用该数据集训练对比学习模型,以提升多语言语义表示的泛化能力,尤其是在低资源语言上的性能优化。随着大语言模型在多语言任务中的广泛应用,MLDR的热点事件包括其在跨语言检索、机器翻译评估及多语言对话系统中的应用探索,这些进展显著推动了全球化背景下语言技术的包容性与实用性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作