indonlp/cendol_collection_v1
收藏Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/indonlp/cendol_collection_v1
下载链接
链接失效反馈官方服务:
资源简介:
Cendol是一个针对印尼语言的开源生成式大语言模型集合,涵盖了从300M到13B参数的不同规模的模型,基于mT5和LLaMA-2两种基础架构。该数据集主要用于单轮对话任务,包括任务特定的指令(Cendol-Instruct)和通用知识指令(Cendol-Chat)。模型在印尼语言的自然语言理解和生成任务上表现出色,尤其是在低资源语言环境下。数据集还包含了详细的模型训练数据、参数规模、调优策略以及性能评估结果。
Cendol是一个针对印尼语言的开源生成式大语言模型集合,涵盖了从300M到13B参数的不同规模的模型,基于mT5和LLaMA-2两种基础架构。该数据集主要用于单轮对话任务,包括任务特定的指令(Cendol-Instruct)和通用知识指令(Cendol-Chat)。模型在印尼语言的自然语言理解和生成任务上表现出色,尤其是在低资源语言环境下。数据集还包含了详细的模型训练数据、参数规模、调优策略以及性能评估结果。
提供机构:
indonlp
原始信息汇总
数据集概述
数据集基本信息
- 名称: NusaT2T v2 - Task-Specific Prompts
- 许可证: Apache 2.0
数据集特征
- 特征名称:
- dataset_name
- subset_name
- prompt_id
- template_name
- dataset_key
- input
- output
- 数据类型: 所有特征均为字符串类型
数据集大小
- 下载大小: 5381530099字节
- 数据集大小: 14433714646字节
- 训练集大小: 30179364个示例,占用14433714646字节
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集用途
- 研究用途: 特别针对印尼语言的研究
- 模型类型: Cendol-Instruct用于任务特定指令,Cendol-Chat用于通用知识指令
模型相关信息
- 模型开发者: IndoNLP
- 模型架构: 基于mT5和LLaMA-2,参数范围从300M到13B
- 训练时间: 2023年10月至2024年1月
许可证
- 使用许可: Apache 2.0
引用信息
- 若使用Cendol模型、代码或数据,请引用相关研究论文。



