five

aaditya/orca_dpo_pairs-Hindi

收藏
Hugging Face2024-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aaditya/orca_dpo_pairs-Hindi
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: string - name: codemix_system dtype: string - name: codemix_question dtype: string - name: codemix_chosen dtype: string - name: codemix_rejected dtype: string - name: codemix_question_type dtype: string - name: en_system dtype: string - name: en_question dtype: string - name: en_chosen dtype: string - name: en_rejected dtype: string splits: - name: train num_bytes: 51127339 num_examples: 10305 download_size: 27467174 dataset_size: 51127339 configs: - config_name: default data_files: - split: train path: data/train-* --- # Summary `aaditya/orca_dpo_pairs-Hindi` is an open source Hindi version dataset of Intel/orca_dpo_pairs This dataset can be used for any purpose, whether academic or commercial, under the terms of the [Creative Commons Attribution-ShareAlike 3.0 Unported License](https://creativecommons.org/licenses/by-sa/3.0/legalcode). Supported Tasks: - Training LLMs - Synthetic Data Generation - Data Augmentation Languages: Hindi Version: 1.0 # Citation ``` @misc {orca_dpo_hindi, author = { Pal, Ankit }, title = { orca_dpo_pairs-Hindi}, year = 2024, url = { https://huggingface.co/datasets/aaditya/orca_dpo_pairs-Hindi }, doi = { 10.57967/hf/1759 }, publisher = { Hugging Face } } ```
提供机构:
aaditya
原始信息汇总

数据集概述

数据集信息

  • 特征列表
    • id: 字符串类型
    • codemix_system: 字符串类型
    • codemix_question: 字符串类型
    • codemix_chosen: 字符串类型
    • codemix_rejected: 字符串类型
    • codemix_question_type: 字符串类型
    • en_system: 字符串类型
    • en_question: 字符串类型
    • en_chosen: 字符串类型
    • en_rejected: 字符串类型
  • 数据分割
    • train: 包含10305个样本,总字节数为51127339
  • 下载大小:27467174字节
  • 数据集大小:51127339字节

配置信息

  • 配置名称:default
  • 数据文件
    • train: 路径为data/train-*

支持任务

  • 训练大型语言模型(LLMs)
  • 合成数据生成
  • 数据增强

语言

  • 印地语(Hindi)

版本

  • 1.0

引用

@misc {orca_dpo_hindi, author = { Pal, Ankit }, title = { orca_dpo_pairs-Hindi}, year = 2024, url = { https://huggingface.co/datasets/aaditya/orca_dpo_pairs-Hindi }, doi = { 10.57967/hf/1759 }, publisher = { Hugging Face } }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作