somosnlp/somos-alpaca-es
收藏Hugging Face2023-03-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/somos-alpaca-es
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Alpaca数据集的西班牙语翻译版本,用于SomosNLP 2023黑客马拉松的协作清理和改进工作。数据集包含文本、输入、输出、预测、标注、向量等多个特征,适用于文本生成任务。参与者需要使用Argilla工具进行数据标注,并通过定期保存和同步标注结果来确保数据质量。数据集的目标是通过集体努力提高翻译数据的质量,并生成一个经过验证和改进的最终数据集。
该数据集是Alpaca数据集的西班牙语翻译版本,用于SomosNLP 2023黑客马拉松的协作清理和改进工作。数据集包含文本、输入、输出、预测、标注、向量等多个特征,适用于文本生成任务。参与者需要使用Argilla工具进行数据标注,并通过定期保存和同步标注结果来确保数据质量。数据集的目标是通过集体努力提高翻译数据的质量,并生成一个经过验证和改进的最终数据集。
提供机构:
somosnlp
原始信息汇总
数据集概述
数据集名称
- 名称: somos-alpaca-es
数据集特征
- text: 数据类型为
null - inputs: 结构化数据,包含以下子特征:
- 1-instruction: 数据类型为
string - 2-input: 数据类型为
string - 3-output: 数据类型为
string
- 1-instruction: 数据类型为
- prediction: 数据类型为
null - prediction_agent: 数据类型为
null - annotation: 数据类型为
null - annotation_agent: 数据类型为
null - vectors: 结构化数据,包含以下子特征:
- input: 序列类型为
float64 - instruction: 序列类型为
float64 - output: 序列类型为
float64
- input: 序列类型为
- multi_label: 数据类型为
bool - explanation: 数据类型为
null - id: 数据类型为
string - metadata: 数据类型为
null - status: 数据类型为
string - event_timestamp: 数据类型为
timestamp[us] - metrics: 数据类型为
null
数据集分割
- train:
- num_bytes: 984065676
- num_examples: 52002
数据集大小
- download_size: 652741327
- dataset_size: 984065676
任务类别
- text-generation
语言
- es
大小类别
- 10K<n<100K



