lbourdois/MTEB_leaks_and_duplications
收藏Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/lbourdois/MTEB_leaks_and_duplications
下载链接
链接失效反馈官方服务:
资源简介:
该数据集列出了构成MTEB排行榜(英文和法文)的数据集中是否存在数据泄露和重复数据的情况。对于英文部分,24%的MTEB EN数据集存在数据泄露;对于法文部分,46%的MTEB FR数据集存在数据泄露。数据集提醒用户注意数据集中的偏差可能比报告的要大,并建议用户在训练模型时谨慎使用这些数据集。
The LLE MTEB dataset records the presence or absence of leaks and duplicate data in the English and French datasets constituting the MTEB leaderboard. For the English part, 24% of the datasets contain leaks, and for the French part, 46% of the datasets contain leaks. The `text_and_label_test_biased` column in the dataset indicates the proportion of biased data in the test split.
提供机构:
lbourdois
原始信息汇总
LLE MTEB 数据集概述
数据集描述
该数据集记录了MTEB排行榜(EN & FR)中数据集的泄漏和重复数据的存在与否。
配置信息
- mteb_en:
- 数据文件:
leaks_and_duplications_MTEB_EN.csv - 分隔符:
;
- 数据文件:
- mteb_fr:
- 数据文件:
leaks_and_duplications_MTEB_FR.csv - 分隔符:
;
- 数据文件:
数据集规模
- n<1K
MTEB EN
- 评估了
run_mteb_english.py文件中的所有数据集。 - 24%的MTEB EN数据集包含泄漏(最多占测试集的6.3%)。
MTEB FR
- 评估了
run_mteb_french.py文件中的所有数据集。 - 由于编码问题,无法下载XPQARetrieval (jinaai/xpqa) 和 MintakaRetrieval (jinaai/mintakaqa) 任务的数据集。
- 使用GitHub上的原始Amazon数据集进行评估。
- 46%的MTEB FR数据集包含泄漏(指示性数据,直到评估完缺失的7个数据集)。
全局信息
- 报告的百分比是数据集的单独评估结果。
- 实际偏差可能大于报告的百分比。
- 建议用户在训练模型时谨慎,甚至避免使用此处列出的所有泄漏数据集的训练拆分。



