soketlabs/bhasha-sft

Name: soketlabs/bhasha-sft
Creator: soketlabs
Published: 2024-04-18 15:42:52
License: 暂无描述

Hugging Face2024-04-18 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/soketlabs/bhasha-sft

下载链接

链接失效反馈

官方服务：

资源简介：

Bhasha SFT是一个大规模的多语言监督微调数据集，包含超过1300万条指令-响应对，涵盖三种印度语言（印地语、古吉拉特语、孟加拉语）和英语。数据集由多个配置组成，每个配置对应不同的数据源，可以单独加载。数据集的字段包括文档ID、对话轮次、消息序列、语言、脚本、数据源、任务类别和内容主题。

提供机构：

soketlabs

原始信息汇总

Bhasha SFT 是一个大规模的多语言监督微调数据集，用于训练大型语言模型。该数据集包含超过1300万条指令-响应数据，涵盖英语和三种印度语言（印地语、古吉拉特语、孟加拉语），包括人工标注和合成数据。

数据集包含多个配置，每个配置对应不同的数据源，可以单独加载。主要配置包括：

每个数据条目包含以下字段：

数据集支持以下语言：

数据集涵盖以下任务类别：

数据集遵循以下许可证：

5,000+

优质数据集

54 个

任务类型

进入经典数据集