five

soketlabs/bhasha-sft

收藏
Hugging Face2024-04-18 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/soketlabs/bhasha-sft
下载链接
链接失效反馈
官方服务:
资源简介:
Bhasha SFT是一个大规模的多语言监督微调数据集,包含超过1300万条指令-响应对,涵盖三种印度语言(印地语、古吉拉特语、孟加拉语)和英语。数据集由多个配置组成,每个配置对应不同的数据源,可以单独加载。数据集的字段包括文档ID、对话轮次、消息序列、语言、脚本、数据源、任务类别和内容主题。

Bhasha SFT是一个大规模的多语言监督微调数据集,包含超过1300万条指令-响应对,涵盖三种印度语言(印地语、古吉拉特语、孟加拉语)和英语。数据集由多个配置组成,每个配置对应不同的数据源,可以单独加载。数据集的字段包括文档ID、对话轮次、消息序列、语言、脚本、数据源、任务类别和内容主题。
提供机构:
soketlabs
原始信息汇总

数据集概述

Bhasha SFT 是一个大规模的多语言监督微调数据集,用于训练大型语言模型。该数据集包含超过1300万条指令-响应数据,涵盖英语和三种印度语言(印地语、古吉拉特语、孟加拉语),包括人工标注和合成数据。

数据集配置

数据集包含多个配置,每个配置对应不同的数据源,可以单独加载。主要配置包括:

  • aya: 包含多个子配置,如翻译、模板化新闻等。
  • indic: 包含与印度语言对齐的数据。
  • samvaad-hi-v1samvaad_mixed_language3: 特定的语言数据配置。

数据集内容

每个数据条目包含以下字段:

  • doc_id: 文档ID
  • num_turns: 多轮交互的次数
  • messages: 指令和响应的序列
  • language: 语言类型
  • script: 书写文字
  • source: 数据源名称
  • task: 任务类别
  • topic: 内容主题

语言支持

数据集支持以下语言:

  • 印地语 (hi)
  • 英语 (en)
  • 古吉拉特语 (gu)
  • 孟加拉语 (bn)

任务类别

数据集涵盖以下任务类别:

  • 问答
  • 翻译
  • 摘要
  • 文本生成

许可证

数据集遵循以下许可证:

  • cc-by-4.0
  • apache-2.0
  • mit
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作