five

bertin-project/bonanza-hf

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/bertin-project/bonanza-hf
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了一个丰富的西班牙语和加泰罗尼亚语指令集合。它结合了多个来源的数据,包括OpenAssistant/oasst2、CohereForAI/aya_dataset、projecte-aina/RAG_Multilingual、bertin-project/alpaca-spanish、dariolopez/Llama-2-databricks-dolly-oasst1-es、projecte-aina/MentorES和projecte-aina/MentorCA,以提供一个独特且多样化的资源用于语言模型的训练。训练集中,西班牙语有143051个示例,加泰罗尼亚语有71272个示例。

This dataset provides a rich collection of instructions in both Spanish and Catalan. It combines content from multiple sources including OpenAssistant/oasst2, CohereForAI/aya_dataset, projecte-aina/RAG_Multilingual, bertin-project/alpaca-spanish, dariolopez/Llama-2-databricks-dolly-oasst1-es, projecte-aina/MentorES, and projecte-aina/MentorCA to offer a unique and diverse resource for training language models. In the training set, there are 143051 examples in Spanish and 71272 examples in Catalan.
提供机构:
bertin-project
原始信息汇总

Bonanza: Dataset de instrucciones en Español y Catalán

概述

该数据集结合了多个来源,提供西班牙语和加泰罗尼亚语的指令数据。

数据集来源

  1. OpenAssistant/oasst2
  2. CohereForAI/aya_dataset
  3. projecte-aina/RAG_Multilingual
  4. bertin-project/alpaca-spanish
  5. dariolopez/Llama-2-databricks-dolly-oasst1-es
  6. projecte-aina/MentorES
  7. projecte-aina/MentorCA

数据集信息

特征

  • instruction:
    • content: 字符串类型
    • role: 字符串类型
  • lang: 字符串类型
  • source: 字符串类型

数据分割

  • train:
    • 字节数: 210696263.6355906
    • 样本数: 214331
  • validation:
    • 字节数: 25874383.068369888
    • 样本数: 24892
  • test:
    • 字节数: 18126173.447911937
    • 样本数: 17623

数据集大小

  • 下载大小: 78132189
  • 数据集总大小: 254696820.15187246

语言分布

  • Español: 143051 样本在 train
  • Catalán: 71272 样本在 train
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作