five

abhinand/tamil-alpaca-orca

收藏
Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abhinand/tamil-alpaca-orca
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了泰米尔语翻译版本的Alpaca数据集和OpenOrca数据集的子集。这是泰米尔语LLaMA系列模型发布的一部分,标志着在推进泰米尔语大语言模型发展中的重要一步。数据集支持文本生成任务,适用于泰米尔语,数据规模在10万到100万之间。
提供机构:
abhinand
原始信息汇总

数据集卡片 for "tamil-alpaca"

概述

  • 数据集名称: tamil-alpaca
  • 数据集版本: default
  • 数据文件:
    • 训练集: data/train-*
  • 许可证: gpl-3.0
  • 任务类别: 文本生成
  • 语言: 泰米尔语
  • 数据集别名: tamil-alpaca-orca
  • 数据集大小: 100K<n<1M

数据集描述

该数据集包括泰米尔语版本的Alpaca数据集OpenOrca数据集的子集。

使用该数据集训练的模型

模型名称 类型 数据 基础模型 参数数量 下载链接
Tamil LLaMA 7B Instruct 指令遵循模型 145k 指令 Tamil LLaMA 7B Base 7B HF Hub
Tamil LLaMA 13B Instruct 指令遵循模型 145k 指令 Tamil LLaMA 13B Base 13B HF Hub

引用

如果您在研究中使用该模型或任何泰米尔语Llama数据集,请引用: bibtex @misc{balachandran2023tamilllama, title={Tamil-Llama: A New Tamil Language Model Based on Llama 2}, author={Abhinand Balachandran}, year={2023}, eprint={2311.05845}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作