BhabhaAI/indic-instruct-data-v0.2-filtered
收藏Hugging Face2024-03-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BhabhaAI/indic-instruct-data-v0.2-filtered
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
- hi
multilinguality:
- multilingual
size_categories:
- 5K<n<400K
language_bcp47:
- en-US
- hi-IN
configs:
- config_name: anudesh
data_files:
- split: en
path: anudesh/en*
- split: hi
path: anudesh/hi*
- config_name: dolly
data_files:
- split: en
path: dolly/en*
- split: hi
path: dolly/hi*
- config_name: flan_v2
data_files:
- split: en
path: flan_v2/en*
- split: hi
path: flan_v2/hi*
- config_name: hh-rlhf
data_files:
- split: en
path: hh-rlhf/en*
- split: hi
path: hh-rlhf/hi*
- config_name: nmt-seed
data_files:
- split: hi
path: nmt-seed/hi*
- config_name: wikihow
data_files:
- split: en
path: wikihow/en*
- split: hi
path: wikihow/hi*
- config_name: oasst1
data_files:
- split: en
path: oasst1/en*
- split: hi
path: oasst1/hi*
- config_name: lm_sys
data_files:
- split: en
path: lm_sys/en*
- split: hi
path: lm_sys/hi*
---
This is v0.2 of [indic-instruct-data-v0.1-filtered](https://huggingface.co/datasets/BhabhaAI/indic-instruct-data-v0.1-filtered)
**Note**: lmsys dataset contain NAME_1, NAME_2 etc. You may replace them with actual names before fine-tuning.
提供机构:
BhabhaAI
原始信息汇总
数据集概述
语言支持
- 英语 (en)
- 印地语 (hi)
多语言性
- 多语言数据集
数据规模
- 数据量介于5K到400K之间
语言标识符
- 英语 (en-US)
- 印地语 (hi-IN)
配置详情
-
config_name: anudesh
- 数据文件路径:
- 英语: anudesh/en*
- 印地语: anudesh/hi*
- 数据文件路径:
-
config_name: dolly
- 数据文件路径:
- 英语: dolly/en*
- 印地语: dolly/hi*
- 数据文件路径:
-
config_name: flan_v2
- 数据文件路径:
- 英语: flan_v2/en*
- 印地语: flan_v2/hi*
- 数据文件路径:
-
config_name: hh-rlhf
- 数据文件路径:
- 英语: hh-rlhf/en*
- 印地语: hh-rlhf/hi*
- 数据文件路径:
-
config_name: nmt-seed
- 数据文件路径:
- 印地语: nmt-seed/hi*
- 数据文件路径:
-
config_name: wikihow
- 数据文件路径:
- 英语: wikihow/en*
- 印地语: wikihow/hi*
- 数据文件路径:
-
config_name: oasst1
- 数据文件路径:
- 英语: oasst1/en*
- 印地语: oasst1/hi*
- 数据文件路径:
-
config_name: lm_sys
- 数据文件路径:
- 英语: lm_sys/en*
- 印地语: lm_sys/hi*
- 数据文件路径:
注意事项
- lmsys数据集包含占位符如NAME_1, NAME_2等,建议在微调前替换为实际名称。



