mteb/bucc-bitext-mining
收藏Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/bucc-bitext-mining
下载链接
链接失效反馈官方服务:
资源简介:
MTEB Benchmark是一个异构的基准测试,构建自多种任务:BitextMining、Classification、Clustering、Pair Classification、Reranking、Retrieval、STS和Summarization。这些数据集经过预处理,可用于实验。
提供机构:
mteb
原始信息汇总
数据集概述
名称: MTEB Benchmark
语言:
- 德语 (de)
- 英语 (en)
- 法语 (fr)
- 俄语 (ru)
- 中文 (zh)
许可证: cc-by-sa-4.0
多语言性:
- 单语
- 多语
数据集配置
-
默认配置:
- 数据文件路径:
test/*.jsonl.gz - 分割:
test
- 数据文件路径:
-
特定语言对配置:
- 法语-英语 (fr-en):
- 数据文件路径:
test/fr-en.jsonl.gz - 分割:
test
- 数据文件路径:
- 俄语-英语 (ru-en):
- 数据文件路径:
test/ru-en.jsonl.gz - 分割:
test
- 数据文件路径:
- 德语-英语 (de-en):
- 数据文件路径:
test/de-en.jsonl.gz - 分割:
test
- 数据文件路径:
- 中文-英语 (zh-en):
- 数据文件路径:
test/zh-en.jsonl.gz - 分割:
test
- 数据文件路径:
- 法语-英语 (fr-en):
数据集内容
任务类型及数据源:
-
Bitext Mining:
-
Classification:
- 多个数据集,包括但不限于Amazon系列、Banking77、Emotion等。
-
Clustering:
- 多个数据集,包括Arxiv、Biorxiv、Medrxiv、Reddit等。
-
Pair Classification:
- SprintDuplicateQuestions、TwitterSemEval2015等。
-
Reranking:
- AskUbuntuDupQuestions、MindSmallReranking等。
-
Retrieval:
- ArguAna、ClimateFEVER、CQADupstackRetrieval等。
-
STS (Semantic Textual Similarity):
- BIOSSES、SICK-R、STS系列等。
-
Summarization:
- SummEval
所有数据集均已预处理,可供实验使用。



