five

malhajar/orca_dpo_pairs-tr

收藏
Hugging Face2024-03-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/malhajar/orca_dpo_pairs-tr
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - tr license: mit size_categories: - 10M<n<100M task_categories: - text-classification - token-classification - table-question-answering - question-answering - zero-shot-classification - summarization - feature-extraction - text-generation - text2text-generation pretty_name: OrcaDPO dataset_info: features: - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: prompt dtype: string splits: - name: train num_bytes: 28576871.836713996 num_examples: 9761 - name: test num_bytes: 3176509.163286004 num_examples: 1085 download_size: 16148886 dataset_size: 31753381.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- # Dataset Card for "malhajar/orca_dpo_pairs-tr" This Dataset is part of a series of datasets aimed at advancing Turkish LLM Developments by establishing rigid Turkish dataset collection to enhance the performance of LLM's Produced in the Turkish Language. malhajar/orca_dpo_pairs-tr is a translated version of [`HuggingFaceH4/orca_dpo_pairs`]( https://huggingface.co/datasets/HuggingFaceH4/orca_dpo_pairs) **Translated by:** [`Mohamad Alhajar`](https://www.linkedin.com/in/muhammet-alhajar/) ### Dataset Summary This is a pre-processed version of the [OpenOrca dataset](https://huggingface.co/datasets/Open-Orca/OpenOrca) translated to Turkish. The original OpenOrca dataset is a collection of augmented FLAN data that aligns, as best as possible, with the distributions outlined in the [Orca paper](https://arxiv.org/abs/2306.02707). It has been instrumental in generating high-performing preference-tuned model checkpoints and serves as a valuable resource for all NLP researchers and developers! # Dataset Summary The OrcaDPO Pair dataset is a subset of the OpenOrca dataset suitable for DPO preference tuning. The dataset is stored in parquet format with each entry using the following schema: : ``` { 'prompt': 'Bir cümle oluşturun ve sonra bana bu cümlede yer alan kavramları söyleyin.' 'chosen': [ { "content": "Her zaman açıklama sağlayan yardımsever bir asistansın. Beş yaşındaki bir çocuğa cevap veriyormuşsun gibi düşün.", "role": "system" }, { "content": "Bir cümle oluşturun ve sonra bana bu cümlede yer alan kavramları söyleyin.", "role": "user" }, { "content": "Cümle: \"Fıstık kedi küçük kahverengi çitin üzerinden atladı.\" Açıklama: Bu cümlede, konuşabileceğimiz birkaç kavram var: 1. Fıstık kedi - okşayabileceğimiz ve kucaklayabileceğimiz yumuşak ve kalın tüylü bir kedi. 2. Atladı - birisi ya da bir şey yerden itilir ve trampolinde atladığımız gibi havada hareket eder! 3. Üzerine - bu, bir kuşun başımızın üstünden uçtuğu gibi bir şeyin üstünden geçmek anlamına gelir. 4. Küçük kahverengi çit - genellikle bir ev ya da parkın etrafında her şeyi güvenli ve yerinde tutmak için inşa edilen kahverengi renkli ahşaptan yapılmış küçük bir duvar.", "role": "assistant" } ] 'rejected': [ { "content": "Her zaman açıklama sağlayan yardımsever bir asistansın. Beş yaşındaki bir çocuğa cevap veriyormuşsun gibi düşün.", "role": "system" }, { "content": "Bir cümle oluşturun ve sonra bana bu cümlede yer alan kavramları söyleyin.", "role": "user" }, { "content": "Elbette! İşte bir cümle: \"Büyük, tüylü kedi kucağımda memnun bir şekilde mırıldandı.\" İşte bu cümlede yer alan kavramlar: 1. Büyük: Bu sıfat kedinin boyutunu tanımlar. 2. Tüylü: Bu sıfat kedinin kürkünün dokusunu tanımlar. 3. Kedi: Bu isim cümlenin ana konusudur. 4. Mırıldan: Bu fiil kedinin çıkardığı sesi tanımlar. 5. Mutlu: Bu fiil kedinin ruh halini tanımlar. Kedi mutlu ve kendini iyi hisseder. 6. Lap: Bu isim kedinin oturduğu yüzeydir. Umarım yardımcı olur! Başka sorunuz var mı?", "role": "assistant" } ] } ``` ### Data Splits The dataset consists of two splits, `"train_prefs"` and `"test_prefs"`: | train_prefs | test_prefs | |:-------:|:-----------:| | 12359 | 500 | ### Usage To load the dataset, run: ```python from datasets import load_dataset ds = load_dataset("malhajar/orca_dpo_pairs-tr") ``` <a name="languages"></a> # Languages The language of the data is primarily Turkish. <a name="dataset-structure"></a> `# Citation ```bibtex @misc{OpenOrca, title = {OpenOrca: An Open Dataset of GPT Augmented FLAN Reasoning Traces}, author = {Wing Lian and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"}, year = {2023}, publisher = {HuggingFace}, journal = {HuggingFace repository}, howpublished = {\url{https://https://huggingface.co/Open-Orca/OpenOrca}}, } ```
提供机构:
malhajar
原始信息汇总

数据集概述

数据集名称: OrcaDPO Pair dataset

语言: 土耳其语

许可证: MIT

大小分类: 10M<n<100M

任务分类:

  • 文本分类
  • 令牌分类
  • 表格问答
  • 问答
  • 零样本分类
  • 摘要
  • 特征提取
  • 文本生成
  • 文本到文本生成

数据集特征:

  • chosen:
    • content: 字符串类型
    • role: 字符串类型
  • rejected:
    • content: 字符串类型
    • role: 字符串类型
  • prompt: 字符串类型

数据分割:

  • 训练集:
    • 字节数: 28576871.836713996
    • 示例数: 9761
  • 测试集:
    • 字节数: 3176509.163286004
    • 示例数: 1085

下载大小: 16148886字节

数据集大小: 31753381.0字节

配置:

  • 默认配置:
    • 训练数据路径: data/train-*
    • 测试数据路径: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作