soketlabs/bhasha-sft
收藏Hugging Face2024-04-18 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/soketlabs/bhasha-sft
下载链接
链接失效反馈官方服务:
资源简介:
Bhasha SFT是一个大规模的多语言监督微调数据集,包含超过1300万条指令-响应对,涵盖三种印度语言(印地语、古吉拉特语、孟加拉语)和英语。数据集由多个配置组成,每个配置对应不同的数据源,可以单独加载。数据集的字段包括文档ID、对话轮次、消息序列、语言、脚本、数据源、任务类别和内容主题。
Bhasha SFT是一个大规模的多语言监督微调数据集,包含超过1300万条指令-响应对,涵盖三种印度语言(印地语、古吉拉特语、孟加拉语)和英语。数据集由多个配置组成,每个配置对应不同的数据源,可以单独加载。数据集的字段包括文档ID、对话轮次、消息序列、语言、脚本、数据源、任务类别和内容主题。
提供机构:
soketlabs
原始信息汇总
数据集概述
Bhasha SFT 是一个大规模的多语言监督微调数据集,用于训练大型语言模型。该数据集包含超过1300万条指令-响应数据,涵盖英语和三种印度语言(印地语、古吉拉特语、孟加拉语),包括人工标注和合成数据。
数据集配置
数据集包含多个配置,每个配置对应不同的数据源,可以单独加载。主要配置包括:
- aya: 包含多个子配置,如翻译、模板化新闻等。
- indic: 包含与印度语言对齐的数据。
- samvaad-hi-v1 和 samvaad_mixed_language3: 特定的语言数据配置。
数据集内容
每个数据条目包含以下字段:
- doc_id: 文档ID
- num_turns: 多轮交互的次数
- messages: 指令和响应的序列
- language: 语言类型
- script: 书写文字
- source: 数据源名称
- task: 任务类别
- topic: 内容主题
语言支持
数据集支持以下语言:
- 印地语 (hi)
- 英语 (en)
- 古吉拉特语 (gu)
- 孟加拉语 (bn)
任务类别
数据集涵盖以下任务类别:
- 问答
- 翻译
- 摘要
- 文本生成
许可证
数据集遵循以下许可证:
- cc-by-4.0
- apache-2.0
- mit



