aaditya/orca_dpo_pairs-Hinglish-Codemix
收藏Hugging Face2024-02-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aaditya/orca_dpo_pairs-Hinglish-Codemix
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个开源的Hinglish(印地语和英语混合)版本的数据集,基于Intel/orca_dpo_pairs数据集。数据集包含多个特征,如id、codemix_system、codemix_question、codemix_chosen、codemix_rejected、codemix_question_type、en_system、en_question、en_chosen和en_rejected。数据集主要用于训练大型语言模型(LLMs)、生成合成数据和数据增强。数据集的语言为印地语,版本为1.0,并且可以在学术或商业用途下使用,遵循Creative Commons Attribution-ShareAlike 3.0 Unported License。
提供机构:
aaditya
原始信息汇总
数据集概述
数据集信息
- 名称:
aaditya/orca_dpo_pairs-Hinglish-Codemix - 版本: 1.0
- 语言: Hindi
- 标签: hindi, codemix, hinglish, india, dpo
特征
- id: string
- codemix_system: string
- codemix_question: string
- codemix_chosen: string
- codemix_rejected: string
- codemix_question_type: string
- en_system: string
- en_question: string
- en_chosen: string
- en_rejected: string
数据分割
- train:
- 字节数: 51127339
- 样本数: 10305
数据大小
- 下载大小: 27467174
- 数据集大小: 51127339
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
支持的任务
- 训练LLMs
- 合成数据生成
- 数据增强
引用
@misc {orca_dpo_pairs-Hinglish-Codemix, author = { Pal, Ankit }, title = { orca_dpo_pairs-Hinglish-Codemix}, year = 2024, url = { https://huggingface.co/datasets/aaditya/orca_dpo_pairs-Hinglish-Codemix }, doi = { 10.57967/hf/1760 }, publisher = { Hugging Face } }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



