convaiinnovations/Nadi_Indic466k_Instruct

Name: convaiinnovations/Nadi_Indic466k_Instruct
Creator: convaiinnovations
Published: 2024-03-10 09:31:24
License: 暂无描述

Hugging Face2024-03-10 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/convaiinnovations/Nadi_Indic466k_Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

Nadi_Indic466K_Instruct数据集是世界上第一个支持18种印度语言的编程数据集，包含466,000行数据和1.42亿个总标记。数据集中的编程部分为英文，其余部分为目标语言。该数据集可用于构建印度语言的编程语言模型，并支持在LLAMA-2、Mistral等开源LLM上进行微调。数据集详细列出了每种语言的标记数量，并提供了支持的语言列表及其语言代码。该数据集由ConvAI Innovations Pvt. Ltd.于2024年发布。

提供机构：

convaiinnovations

原始信息汇总

Nadi_Indic466K_Instruct 数据集

Nadi_Indic466K_Instruct 数据集是世界上第一个支持18种印度语言的编程数据集，包含46.6万行和1.42亿个总标记。该数据集可供开发者用于构建印度语言的编程语言模型（LLMs）。

数据集详情

总标记数：1.42亿个
语言及标记数：
- 印地语：1,609,056 个标记
- 旁遮普语：13,472,644 个标记
- 孟加拉语：11,514,502 个标记
- 泰米尔语：10,025,914 个标记
- 泰卢固语：1,943,389 个标记
- 马拉地语：10,826,335 个标记
- 古吉拉特语：2,126,480 个标记
- 乌尔都语：2,675,491 个标记
- 卡纳达语：9,977,750 个标记
- 马拉雅拉姆语：9,667,277 个标记
- 奥里亚语：11,452,624 个标记
- 阿萨姆语：1,944,119 个标记
- 梵语：11,445,658 个标记
- 迈蒂利语：7,203,251 个标记
- 博杰普尔语：11,099,822 个标记
- 信德语：13,536,792 个标记
- 尼泊尔语：11,155,856 个标记
- 僧伽罗语：353,556 个标记

支持的语言

Nadi_Indic466K_Instruct 数据集支持以下印度语言及其语言代码：

hi: 印地语
pa: 旁遮普语
bn: 孟加拉语
ta: 泰米尔语
te: 泰卢固语
mr: 马拉地语
gu: 古吉拉特语
ur: 乌尔都语
kn: 卡纳达语
ml: 马拉雅拉姆语
or: 奥里亚语
as: 阿萨姆语
sa: 梵语
mai: 迈蒂利语
bho: 博杰普尔语
sd: 信德语
ne: 尼泊尔语
si: 僧伽罗语

潜在应用

Nadi_Indic466K_Instruct 数据集可用于以下应用：

构建基于印度语言的大型语言模型（LLMs）用于编程。
在LLAMA-2、Mistral或其他开源LLM上进行Q-LoRA基础的SFT/PPO/DPO微调。
支持多种编程语言，如Python、C、C++、Java、PHP、C#、TypeScript、Kotlin、SQL、Dart、Ruby、Bash等。

通过利用此数据集，开发者可以创建更可靠和准确的编程语言模型，融入印度语言。

该数据集由ConvAI Innovations Pvt. Ltd. (2024)提供。

引用

如果您基于此数据集构建了AI模型或对其进行了修改/组合，请使用以下格式进行引用：

@misc{nadi_indic466k_instruct_dataset_2024, author = {ConvAI Innovations Pvt. Ltd.}, title = {Nadi_Indic466K_Instruct Dataset}, year = {2024}, url = {[https://huggingface.co/datasets/nandakishor597/Nadi_Indic466k_Instruct]} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集