abhinand/tamil-alpaca-orca

Name: abhinand/tamil-alpaca-orca
Creator: abhinand
Published: 2023-11-24 14:39:23
License: 暂无描述

Hugging Face2023-11-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/abhinand/tamil-alpaca-orca

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了泰米尔语翻译版本的Alpaca数据集和OpenOrca数据集的子集。这是泰米尔语LLaMA系列模型发布的一部分，标志着在推进泰米尔语大语言模型发展中的重要一步。数据集支持文本生成任务，适用于泰米尔语，数据规模在10万到100万之间。

提供机构：

abhinand

原始信息汇总

数据集卡片 for "tamil-alpaca"

概述

数据集名称: tamil-alpaca
数据集版本: default
数据文件:
- 训练集: data/train-*
许可证: gpl-3.0
任务类别: 文本生成
语言: 泰米尔语
数据集别名: tamil-alpaca-orca
数据集大小: 100K<n<1M

数据集描述

该数据集包括泰米尔语版本的Alpaca数据集和OpenOrca数据集的子集。

使用该数据集训练的模型

模型名称	类型	数据	基础模型	参数数量	下载链接
Tamil LLaMA 7B Instruct	指令遵循模型	145k 指令	Tamil LLaMA 7B Base	7B	HF Hub
Tamil LLaMA 13B Instruct	指令遵循模型	145k 指令	Tamil LLaMA 13B Base	13B	HF Hub

引用

如果您在研究中使用该模型或任何泰米尔语Llama数据集，请引用： bibtex @misc{balachandran2023tamilllama, title={Tamil-Llama: A New Tamil Language Model Based on Llama 2}, author={Abhinand Balachandran}, year={2023}, eprint={2311.05845}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集