malhajar/orca_dpo_pairs-tr

Name: malhajar/orca_dpo_pairs-tr
Creator: malhajar
Published: 2024-03-30 00:09:28
License: 暂无描述

Hugging Face2024-03-30 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/malhajar/orca_dpo_pairs-tr

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - tr license: mit size_categories: - 10M<n<100M task_categories: - text-classification - token-classification - table-question-answering - question-answering - zero-shot-classification - summarization - feature-extraction - text-generation - text2text-generation pretty_name: OrcaDPO dataset_info: features: - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: prompt dtype: string splits: - name: train num_bytes: 28576871.836713996 num_examples: 9761 - name: test num_bytes: 3176509.163286004 num_examples: 1085 download_size: 16148886 dataset_size: 31753381.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- # Dataset Card for "malhajar/orca_dpo_pairs-tr" This Dataset is part of a series of datasets aimed at advancing Turkish LLM Developments by establishing rigid Turkish dataset collection to enhance the performance of LLM's Produced in the Turkish Language. malhajar/orca_dpo_pairs-tr is a translated version of [`HuggingFaceH4/orca_dpo_pairs`]( https://huggingface.co/datasets/HuggingFaceH4/orca_dpo_pairs) **Translated by:** [`Mohamad Alhajar`](https://www.linkedin.com/in/muhammet-alhajar/) ### Dataset Summary This is a pre-processed version of the [OpenOrca dataset](https://huggingface.co/datasets/Open-Orca/OpenOrca) translated to Turkish. The original OpenOrca dataset is a collection of augmented FLAN data that aligns, as best as possible, with the distributions outlined in the [Orca paper](https://arxiv.org/abs/2306.02707). It has been instrumental in generating high-performing preference-tuned model checkpoints and serves as a valuable resource for all NLP researchers and developers! # Dataset Summary The OrcaDPO Pair dataset is a subset of the OpenOrca dataset suitable for DPO preference tuning. The dataset is stored in parquet format with each entry using the following schema: : ``` { 'prompt': 'Bir cümle oluşturun ve sonra bana bu cümlede yer alan kavramları söyleyin.' 'chosen': [ { "content": "Her zaman açıklama sağlayan yardımsever bir asistansın. Beş yaşındaki bir çocuğa cevap veriyormuşsun gibi düşün.", "role": "system" }, { "content": "Bir cümle oluşturun ve sonra bana bu cümlede yer alan kavramları söyleyin.", "role": "user" }, { "content": "Cümle: \"Fıstık kedi küçük kahverengi çitin üzerinden atladı.\" Açıklama: Bu cümlede, konuşabileceğimiz birkaç kavram var: 1. Fıstık kedi - okşayabileceğimiz ve kucaklayabileceğimiz yumuşak ve kalın tüylü bir kedi. 2. Atladı - birisi ya da bir şey yerden itilir ve trampolinde atladığımız gibi havada hareket eder! 3. Üzerine - bu, bir kuşun başımızın üstünden uçtuğu gibi bir şeyin üstünden geçmek anlamına gelir. 4. Küçük kahverengi çit - genellikle bir ev ya da parkın etrafında her şeyi güvenli ve yerinde tutmak için inşa edilen kahverengi renkli ahşaptan yapılmış küçük bir duvar.", "role": "assistant" } ] 'rejected': [ { "content": "Her zaman açıklama sağlayan yardımsever bir asistansın. Beş yaşındaki bir çocuğa cevap veriyormuşsun gibi düşün.", "role": "system" }, { "content": "Bir cümle oluşturun ve sonra bana bu cümlede yer alan kavramları söyleyin.", "role": "user" }, { "content": "Elbette! İşte bir cümle: \"Büyük, tüylü kedi kucağımda memnun bir şekilde mırıldandı.\" İşte bu cümlede yer alan kavramlar: 1. Büyük: Bu sıfat kedinin boyutunu tanımlar. 2. Tüylü: Bu sıfat kedinin kürkünün dokusunu tanımlar. 3. Kedi: Bu isim cümlenin ana konusudur. 4. Mırıldan: Bu fiil kedinin çıkardığı sesi tanımlar. 5. Mutlu: Bu fiil kedinin ruh halini tanımlar. Kedi mutlu ve kendini iyi hisseder. 6. Lap: Bu isim kedinin oturduğu yüzeydir. Umarım yardımcı olur! Başka sorunuz var mı?", "role": "assistant" } ] } ``` ### Data Splits The dataset consists of two splits, `"train_prefs"` and `"test_prefs"`: | train_prefs | test_prefs | |:-------:|:-----------:| | 12359 | 500 | ### Usage To load the dataset, run: ```python from datasets import load_dataset ds = load_dataset("malhajar/orca_dpo_pairs-tr") ``` <a name="languages"></a> # Languages The language of the data is primarily Turkish. <a name="dataset-structure"></a> `# Citation ```bibtex @misc{OpenOrca, title = {OpenOrca: An Open Dataset of GPT Augmented FLAN Reasoning Traces}, author = {Wing Lian and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"}, year = {2023}, publisher = {HuggingFace}, journal = {HuggingFace repository}, howpublished = {\url{https://https://huggingface.co/Open-Orca/OpenOrca}}, } ```

提供机构：

malhajar

原始信息汇总

数据集概述

数据集名称： OrcaDPO Pair dataset

语言： 土耳其语

许可证： MIT

大小分类： 10M<n<100M

任务分类：

文本分类
令牌分类
表格问答
问答
零样本分类
摘要
特征提取
文本生成
文本到文本生成

数据集特征：

chosen：
- content： 字符串类型
- role： 字符串类型
rejected：
- content： 字符串类型
- role： 字符串类型
prompt： 字符串类型

数据分割：

训练集：
- 字节数： 28576871.836713996
- 示例数： 9761
测试集：
- 字节数： 3176509.163286004
- 示例数： 1085

下载大小： 16148886字节

数据集大小： 31753381.0字节

配置：

默认配置：
- 训练数据路径： data/train-*
- 测试数据路径： data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集