five

convaiinnovations/Nadi_Indic466k_Instruct

收藏
Hugging Face2024-03-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/convaiinnovations/Nadi_Indic466k_Instruct
下载链接
链接失效反馈
官方服务:
资源简介:
Nadi_Indic466K_Instruct数据集是世界上第一个支持18种印度语言的编程数据集,包含466,000行数据和1.42亿个总标记。数据集中的编程部分为英文,其余部分为目标语言。该数据集可用于构建印度语言的编程语言模型,并支持在LLAMA-2、Mistral等开源LLM上进行微调。数据集详细列出了每种语言的标记数量,并提供了支持的语言列表及其语言代码。该数据集由ConvAI Innovations Pvt. Ltd.于2024年发布。

Nadi_Indic466K_Instruct数据集是世界上第一个支持18种印度语言的编程数据集,包含466,000行数据和1.42亿个总标记。数据集中的编程部分为英文,其余部分为目标语言。该数据集可用于构建印度语言的编程语言模型,并支持在LLAMA-2、Mistral等开源LLM上进行微调。数据集详细列出了每种语言的标记数量,并提供了支持的语言列表及其语言代码。该数据集由ConvAI Innovations Pvt. Ltd.于2024年发布。
提供机构:
convaiinnovations
原始信息汇总

Nadi_Indic466K_Instruct 数据集

Nadi_Indic466K_Instruct 数据集是世界上第一个支持18种印度语言的编程数据集,包含46.6万行和1.42亿个总标记。该数据集可供开发者用于构建印度语言的编程语言模型(LLMs)。

数据集详情

  • 总标记数:1.42亿个
  • 语言及标记数:
    • 印地语:1,609,056 个标记
    • 旁遮普语:13,472,644 个标记
    • 孟加拉语:11,514,502 个标记
    • 泰米尔语:10,025,914 个标记
    • 泰卢固语:1,943,389 个标记
    • 马拉地语:10,826,335 个标记
    • 古吉拉特语:2,126,480 个标记
    • 乌尔都语:2,675,491 个标记
    • 卡纳达语:9,977,750 个标记
    • 马拉雅拉姆语:9,667,277 个标记
    • 奥里亚语:11,452,624 个标记
    • 阿萨姆语:1,944,119 个标记
    • 梵语:11,445,658 个标记
    • 迈蒂利语:7,203,251 个标记
    • 博杰普尔语:11,099,822 个标记
    • 信德语:13,536,792 个标记
    • 尼泊尔语:11,155,856 个标记
    • 僧伽罗语:353,556 个标记

支持的语言

Nadi_Indic466K_Instruct 数据集支持以下印度语言及其语言代码:

  • hi: 印地语
  • pa: 旁遮普语
  • bn: 孟加拉语
  • ta: 泰米尔语
  • te: 泰卢固语
  • mr: 马拉地语
  • gu: 古吉拉特语
  • ur: 乌尔都语
  • kn: 卡纳达语
  • ml: 马拉雅拉姆语
  • or: 奥里亚语
  • as: 阿萨姆语
  • sa: 梵语
  • mai: 迈蒂利语
  • bho: 博杰普尔语
  • sd: 信德语
  • ne: 尼泊尔语
  • si: 僧伽罗语

潜在应用

Nadi_Indic466K_Instruct 数据集可用于以下应用:

  1. 构建基于印度语言的大型语言模型(LLMs)用于编程。
  2. 在LLAMA-2、Mistral或其他开源LLM上进行Q-LoRA基础的SFT/PPO/DPO微调。
  3. 支持多种编程语言,如Python、C、C++、Java、PHP、C#、TypeScript、Kotlin、SQL、Dart、Ruby、Bash等。

通过利用此数据集,开发者可以创建更可靠和准确的编程语言模型,融入印度语言。

该数据集由ConvAI Innovations Pvt. Ltd. (2024)提供。

引用

如果您基于此数据集构建了AI模型或对其进行了修改/组合,请使用以下格式进行引用:

@misc{nadi_indic466k_instruct_dataset_2024, author = {ConvAI Innovations Pvt. Ltd.}, title = {Nadi_Indic466K_Instruct Dataset}, year = {2024}, url = {[https://huggingface.co/datasets/nandakishor597/Nadi_Indic466k_Instruct]} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作