abhinand/tamil-alpaca-orca
收藏Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abhinand/tamil-alpaca-orca
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了泰米尔语翻译版本的Alpaca数据集和OpenOrca数据集的子集。这是泰米尔语LLaMA系列模型发布的一部分,标志着在推进泰米尔语大语言模型发展中的重要一步。数据集支持文本生成任务,适用于泰米尔语,数据规模在10万到100万之间。
提供机构:
abhinand
原始信息汇总
数据集卡片 for "tamil-alpaca"
概述
- 数据集名称: tamil-alpaca
- 数据集版本: default
- 数据文件:
- 训练集: data/train-*
- 许可证: gpl-3.0
- 任务类别: 文本生成
- 语言: 泰米尔语
- 数据集别名: tamil-alpaca-orca
- 数据集大小: 100K<n<1M
数据集描述
该数据集包括泰米尔语版本的Alpaca数据集和OpenOrca数据集的子集。
使用该数据集训练的模型
| 模型名称 | 类型 | 数据 | 基础模型 | 参数数量 | 下载链接 |
|---|---|---|---|---|---|
| Tamil LLaMA 7B Instruct | 指令遵循模型 | 145k 指令 | Tamil LLaMA 7B Base | 7B | HF Hub |
| Tamil LLaMA 13B Instruct | 指令遵循模型 | 145k 指令 | Tamil LLaMA 13B Base | 13B | HF Hub |
引用
如果您在研究中使用该模型或任何泰米尔语Llama数据集,请引用: bibtex @misc{balachandran2023tamilllama, title={Tamil-Llama: A New Tamil Language Model Based on Llama 2}, author={Abhinand Balachandran}, year={2023}, eprint={2311.05845}, archivePrefix={arXiv}, primaryClass={cs.CL} }



