bertin-project/bonanza-hf
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/bertin-project/bonanza-hf
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了一个丰富的西班牙语和加泰罗尼亚语指令集合。它结合了多个来源的数据,包括OpenAssistant/oasst2、CohereForAI/aya_dataset、projecte-aina/RAG_Multilingual、bertin-project/alpaca-spanish、dariolopez/Llama-2-databricks-dolly-oasst1-es、projecte-aina/MentorES和projecte-aina/MentorCA,以提供一个独特且多样化的资源用于语言模型的训练。训练集中,西班牙语有143051个示例,加泰罗尼亚语有71272个示例。
This dataset provides a rich collection of instructions in both Spanish and Catalan. It combines content from multiple sources including OpenAssistant/oasst2, CohereForAI/aya_dataset, projecte-aina/RAG_Multilingual, bertin-project/alpaca-spanish, dariolopez/Llama-2-databricks-dolly-oasst1-es, projecte-aina/MentorES, and projecte-aina/MentorCA to offer a unique and diverse resource for training language models. In the training set, there are 143051 examples in Spanish and 71272 examples in Catalan.
提供机构:
bertin-project
原始信息汇总
Bonanza: Dataset de instrucciones en Español y Catalán
概述
该数据集结合了多个来源,提供西班牙语和加泰罗尼亚语的指令数据。
数据集来源
- OpenAssistant/oasst2
- CohereForAI/aya_dataset
- projecte-aina/RAG_Multilingual
- bertin-project/alpaca-spanish
- dariolopez/Llama-2-databricks-dolly-oasst1-es
- projecte-aina/MentorES
- projecte-aina/MentorCA
数据集信息
特征
- instruction:
- content: 字符串类型
- role: 字符串类型
- lang: 字符串类型
- source: 字符串类型
数据分割
- train:
- 字节数: 210696263.6355906
- 样本数: 214331
- validation:
- 字节数: 25874383.068369888
- 样本数: 24892
- test:
- 字节数: 18126173.447911937
- 样本数: 17623
数据集大小
- 下载大小: 78132189
- 数据集总大小: 254696820.15187246
语言分布
- Español: 143051 样本在
train中 - Catalán: 71272 样本在
train中
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



