five

mteb/biblenlp-corpus-mmteb

收藏
Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/biblenlp-corpus-mmteb
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集涵盖了多种语言,语言代码列表显示了其广泛的多语言特性。数据集采用CC-BY-4.0和其他许可证,数据量在1M到10M之间。配置部分详细列出了各种语言对及其对应的数据文件,分为训练集、测试集和验证集。

该数据集涵盖了多种语言,语言代码列表显示了其广泛的多语言特性。数据集采用CC-BY-4.0和其他许可证,数据量在1M到10M之间。配置部分详细列出了各种语言对及其对应的数据文件,分为训练集、测试集和验证集。
提供机构:
mteb
原始信息汇总

数据集概述

数据集名称

  • pretty_name: biblenlp-corpus-mmteb

语言信息

  • language: 包含多种语言代码,如aai, aak, aau等,总计超过200种。
  • language_creators: expert-generated

数据集大小

  • size_categories: 1M<n<10M

许可证

  • license: cc-by-4.0, other

多语言性

  • multilinguality: translation, multilingual

配置文件

  • configs: 包含多个配置,每个配置指定了数据文件的路径和对应的分割(train, test, validation)。例如:
    • config_name: default
      • path: train/*.jsonl.gz split: train
      • path: test/*.jsonl.gz split: test
      • path: validation/*.jsonl.gz split: validation
    • 其他配置文件详细列出了不同语言组合的训练、测试和验证数据文件路径。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作