convaiinnovations/Nadi_Indic466k_Instruct
收藏Hugging Face2024-03-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/convaiinnovations/Nadi_Indic466k_Instruct
下载链接
链接失效反馈官方服务:
资源简介:
Nadi_Indic466K_Instruct数据集是世界上第一个支持18种印度语言的编程数据集,包含466,000行数据和1.42亿个总标记。数据集中的编程部分为英文,其余部分为目标语言。该数据集可用于构建印度语言的编程语言模型,并支持在LLAMA-2、Mistral等开源LLM上进行微调。数据集详细列出了每种语言的标记数量,并提供了支持的语言列表及其语言代码。该数据集由ConvAI Innovations Pvt. Ltd.于2024年发布。
Nadi_Indic466K_Instruct数据集是世界上第一个支持18种印度语言的编程数据集,包含466,000行数据和1.42亿个总标记。数据集中的编程部分为英文,其余部分为目标语言。该数据集可用于构建印度语言的编程语言模型,并支持在LLAMA-2、Mistral等开源LLM上进行微调。数据集详细列出了每种语言的标记数量,并提供了支持的语言列表及其语言代码。该数据集由ConvAI Innovations Pvt. Ltd.于2024年发布。
提供机构:
convaiinnovations
原始信息汇总
Nadi_Indic466K_Instruct 数据集
Nadi_Indic466K_Instruct 数据集是世界上第一个支持18种印度语言的编程数据集,包含46.6万行和1.42亿个总标记。该数据集可供开发者用于构建印度语言的编程语言模型(LLMs)。
数据集详情
- 总标记数:1.42亿个
- 语言及标记数:
- 印地语:1,609,056 个标记
- 旁遮普语:13,472,644 个标记
- 孟加拉语:11,514,502 个标记
- 泰米尔语:10,025,914 个标记
- 泰卢固语:1,943,389 个标记
- 马拉地语:10,826,335 个标记
- 古吉拉特语:2,126,480 个标记
- 乌尔都语:2,675,491 个标记
- 卡纳达语:9,977,750 个标记
- 马拉雅拉姆语:9,667,277 个标记
- 奥里亚语:11,452,624 个标记
- 阿萨姆语:1,944,119 个标记
- 梵语:11,445,658 个标记
- 迈蒂利语:7,203,251 个标记
- 博杰普尔语:11,099,822 个标记
- 信德语:13,536,792 个标记
- 尼泊尔语:11,155,856 个标记
- 僧伽罗语:353,556 个标记
支持的语言
Nadi_Indic466K_Instruct 数据集支持以下印度语言及其语言代码:
hi: 印地语pa: 旁遮普语bn: 孟加拉语ta: 泰米尔语te: 泰卢固语mr: 马拉地语gu: 古吉拉特语ur: 乌尔都语kn: 卡纳达语ml: 马拉雅拉姆语or: 奥里亚语as: 阿萨姆语sa: 梵语mai: 迈蒂利语bho: 博杰普尔语sd: 信德语ne: 尼泊尔语si: 僧伽罗语
潜在应用
Nadi_Indic466K_Instruct 数据集可用于以下应用:
- 构建基于印度语言的大型语言模型(LLMs)用于编程。
- 在LLAMA-2、Mistral或其他开源LLM上进行Q-LoRA基础的SFT/PPO/DPO微调。
- 支持多种编程语言,如Python、C、C++、Java、PHP、C#、TypeScript、Kotlin、SQL、Dart、Ruby、Bash等。
通过利用此数据集,开发者可以创建更可靠和准确的编程语言模型,融入印度语言。
该数据集由ConvAI Innovations Pvt. Ltd. (2024)提供。
引用
如果您基于此数据集构建了AI模型或对其进行了修改/组合,请使用以下格式进行引用:
@misc{nadi_indic466k_instruct_dataset_2024, author = {ConvAI Innovations Pvt. Ltd.}, title = {Nadi_Indic466K_Instruct Dataset}, year = {2024}, url = {[https://huggingface.co/datasets/nandakishor597/Nadi_Indic466k_Instruct]} }



