mteb/biblenlp-corpus-mmteb
收藏Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/biblenlp-corpus-mmteb
下载链接
链接失效反馈官方服务:
资源简介:
该数据集涵盖了多种语言,语言代码列表显示了其广泛的多语言特性。数据集采用CC-BY-4.0和其他许可证,数据量在1M到10M之间。配置部分详细列出了各种语言对及其对应的数据文件,分为训练集、测试集和验证集。
该数据集涵盖了多种语言,语言代码列表显示了其广泛的多语言特性。数据集采用CC-BY-4.0和其他许可证,数据量在1M到10M之间。配置部分详细列出了各种语言对及其对应的数据文件,分为训练集、测试集和验证集。
提供机构:
mteb
原始信息汇总
数据集概述
数据集名称
- pretty_name: biblenlp-corpus-mmteb
语言信息
- language: 包含多种语言代码,如aai, aak, aau等,总计超过200种。
- language_creators: expert-generated
数据集大小
- size_categories: 1M<n<10M
许可证
- license: cc-by-4.0, other
多语言性
- multilinguality: translation, multilingual
配置文件
- configs: 包含多个配置,每个配置指定了数据文件的路径和对应的分割(train, test, validation)。例如:
- config_name: default
- path: train/*.jsonl.gz split: train
- path: test/*.jsonl.gz split: test
- path: validation/*.jsonl.gz split: validation
- 其他配置文件详细列出了不同语言组合的训练、测试和验证数据文件路径。
- config_name: default



