five

lbourdois/MTEB_leaks_and_duplications

收藏
Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/lbourdois/MTEB_leaks_and_duplications
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集列出了构成MTEB排行榜(英文和法文)的数据集中是否存在数据泄露和重复数据的情况。对于英文部分,24%的MTEB EN数据集存在数据泄露;对于法文部分,46%的MTEB FR数据集存在数据泄露。数据集提醒用户注意数据集中的偏差可能比报告的要大,并建议用户在训练模型时谨慎使用这些数据集。

The LLE MTEB dataset records the presence or absence of leaks and duplicate data in the English and French datasets constituting the MTEB leaderboard. For the English part, 24% of the datasets contain leaks, and for the French part, 46% of the datasets contain leaks. The `text_and_label_test_biased` column in the dataset indicates the proportion of biased data in the test split.
提供机构:
lbourdois
原始信息汇总

LLE MTEB 数据集概述

数据集描述

该数据集记录了MTEB排行榜(EN & FR)中数据集的泄漏和重复数据的存在与否。

配置信息

  • mteb_en:
    • 数据文件: leaks_and_duplications_MTEB_EN.csv
    • 分隔符: ;
  • mteb_fr:
    • 数据文件: leaks_and_duplications_MTEB_FR.csv
    • 分隔符: ;

数据集规模

  • n<1K

MTEB EN

  • 评估了run_mteb_english.py文件中的所有数据集。
  • 24%的MTEB EN数据集包含泄漏(最多占测试集的6.3%)。

MTEB FR

  • 评估了run_mteb_french.py文件中的所有数据集。
  • 由于编码问题,无法下载XPQARetrieval (jinaai/xpqa) 和 MintakaRetrieval (jinaai/mintakaqa) 任务的数据集。
  • 使用GitHub上的原始Amazon数据集进行评估。
  • 46%的MTEB FR数据集包含泄漏(指示性数据,直到评估完缺失的7个数据集)。

全局信息

  • 报告的百分比是数据集的单独评估结果。
  • 实际偏差可能大于报告的百分比。
  • 建议用户在训练模型时谨慎,甚至避免使用此处列出的所有泄漏数据集的训练拆分。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作