five

mteb/bucc-bitext-mining

收藏
Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/bucc-bitext-mining
下载链接
链接失效反馈
官方服务:
资源简介:
MTEB Benchmark是一个异构的基准测试,构建自多种任务:BitextMining、Classification、Clustering、Pair Classification、Reranking、Retrieval、STS和Summarization。这些数据集经过预处理,可用于实验。
提供机构:
mteb
原始信息汇总

数据集概述

名称: MTEB Benchmark

语言:

  • 德语 (de)
  • 英语 (en)
  • 法语 (fr)
  • 俄语 (ru)
  • 中文 (zh)

许可证: cc-by-sa-4.0

多语言性:

  • 单语
  • 多语

数据集配置

  • 默认配置:

    • 数据文件路径: test/*.jsonl.gz
    • 分割: test
  • 特定语言对配置:

    • 法语-英语 (fr-en):
      • 数据文件路径: test/fr-en.jsonl.gz
      • 分割: test
    • 俄语-英语 (ru-en):
      • 数据文件路径: test/ru-en.jsonl.gz
      • 分割: test
    • 德语-英语 (de-en):
      • 数据文件路径: test/de-en.jsonl.gz
      • 分割: test
    • 中文-英语 (zh-en):
      • 数据文件路径: test/zh-en.jsonl.gz
      • 分割: test

数据集内容

任务类型及数据源:

  • Bitext Mining:

  • Classification:

    • 多个数据集,包括但不限于Amazon系列、Banking77、Emotion等。
  • Clustering:

    • 多个数据集,包括Arxiv、Biorxiv、Medrxiv、Reddit等。
  • Pair Classification:

    • SprintDuplicateQuestions、TwitterSemEval2015等。
  • Reranking:

    • AskUbuntuDupQuestions、MindSmallReranking等。
  • Retrieval:

    • ArguAna、ClimateFEVER、CQADupstackRetrieval等。
  • STS (Semantic Textual Similarity):

    • BIOSSES、SICK-R、STS系列等。
  • Summarization:

    • SummEval

所有数据集均已预处理,可供实验使用。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作