malhajar/orca_dpo_pairs-tr
收藏Hugging Face2024-03-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/malhajar/orca_dpo_pairs-tr
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- tr
license: mit
size_categories:
- 10M<n<100M
task_categories:
- text-classification
- token-classification
- table-question-answering
- question-answering
- zero-shot-classification
- summarization
- feature-extraction
- text-generation
- text2text-generation
pretty_name: OrcaDPO
dataset_info:
features:
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
- name: prompt
dtype: string
splits:
- name: train
num_bytes: 28576871.836713996
num_examples: 9761
- name: test
num_bytes: 3176509.163286004
num_examples: 1085
download_size: 16148886
dataset_size: 31753381.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
# Dataset Card for "malhajar/orca_dpo_pairs-tr"
This Dataset is part of a series of datasets aimed at advancing Turkish LLM Developments by establishing rigid Turkish dataset collection to enhance the performance of LLM's Produced in the Turkish Language.
malhajar/orca_dpo_pairs-tr is a translated version of [`HuggingFaceH4/orca_dpo_pairs`]( https://huggingface.co/datasets/HuggingFaceH4/orca_dpo_pairs)
**Translated by:** [`Mohamad Alhajar`](https://www.linkedin.com/in/muhammet-alhajar/)
### Dataset Summary
This is a pre-processed version of the [OpenOrca dataset](https://huggingface.co/datasets/Open-Orca/OpenOrca) translated to Turkish.
The original OpenOrca dataset is a collection of augmented FLAN data that aligns, as best as possible, with the distributions outlined in the [Orca paper](https://arxiv.org/abs/2306.02707).
It has been instrumental in generating high-performing preference-tuned model checkpoints and serves as a valuable resource for all NLP researchers and developers!
# Dataset Summary
The OrcaDPO Pair dataset is a subset of the OpenOrca dataset suitable for DPO preference tuning. The dataset is stored in parquet format with each entry using the following schema:
:
```
{
'prompt': 'Bir cümle oluşturun ve sonra bana bu cümlede yer alan kavramları söyleyin.'
'chosen': [
{
"content": "Her zaman açıklama sağlayan yardımsever bir asistansın. Beş yaşındaki bir çocuğa cevap veriyormuşsun gibi düşün.",
"role": "system"
},
{
"content": "Bir cümle oluşturun ve sonra bana bu cümlede yer alan kavramları söyleyin.",
"role": "user"
},
{
"content": "Cümle: \"Fıstık kedi küçük kahverengi çitin üzerinden atladı.\" Açıklama: Bu cümlede, konuşabileceğimiz birkaç kavram var: 1. Fıstık kedi - okşayabileceğimiz ve kucaklayabileceğimiz yumuşak ve kalın tüylü bir kedi. 2. Atladı - birisi ya da bir şey yerden itilir ve trampolinde atladığımız gibi havada hareket eder! 3. Üzerine - bu, bir kuşun başımızın üstünden uçtuğu gibi bir şeyin üstünden geçmek anlamına gelir. 4. Küçük kahverengi çit - genellikle bir ev ya da parkın etrafında her şeyi güvenli ve yerinde tutmak için inşa edilen kahverengi renkli ahşaptan yapılmış küçük bir duvar.",
"role": "assistant"
}
]
'rejected': [
{
"content": "Her zaman açıklama sağlayan yardımsever bir asistansın. Beş yaşındaki bir çocuğa cevap veriyormuşsun gibi düşün.",
"role": "system"
},
{
"content": "Bir cümle oluşturun ve sonra bana bu cümlede yer alan kavramları söyleyin.",
"role": "user"
},
{
"content": "Elbette! İşte bir cümle: \"Büyük, tüylü kedi kucağımda memnun bir şekilde mırıldandı.\" İşte bu cümlede yer alan kavramlar: 1. Büyük: Bu sıfat kedinin boyutunu tanımlar. 2. Tüylü: Bu sıfat kedinin kürkünün dokusunu tanımlar. 3. Kedi: Bu isim cümlenin ana konusudur. 4. Mırıldan: Bu fiil kedinin çıkardığı sesi tanımlar. 5. Mutlu: Bu fiil kedinin ruh halini tanımlar. Kedi mutlu ve kendini iyi hisseder. 6. Lap: Bu isim kedinin oturduğu yüzeydir. Umarım yardımcı olur! Başka sorunuz var mı?",
"role": "assistant"
}
]
}
```
### Data Splits
The dataset consists of two splits, `"train_prefs"` and `"test_prefs"`:
| train_prefs | test_prefs |
|:-------:|:-----------:|
| 12359 | 500 |
### Usage
To load the dataset, run:
```python
from datasets import load_dataset
ds = load_dataset("malhajar/orca_dpo_pairs-tr")
```
<a name="languages"></a>
# Languages
The language of the data is primarily Turkish.
<a name="dataset-structure"></a>
`# Citation
```bibtex
@misc{OpenOrca,
title = {OpenOrca: An Open Dataset of GPT Augmented FLAN Reasoning Traces},
author = {Wing Lian and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"},
year = {2023},
publisher = {HuggingFace},
journal = {HuggingFace repository},
howpublished = {\url{https://https://huggingface.co/Open-Orca/OpenOrca}},
}
```
提供机构:
malhajar
原始信息汇总
数据集概述
数据集名称: OrcaDPO Pair dataset
语言: 土耳其语
许可证: MIT
大小分类: 10M<n<100M
任务分类:
- 文本分类
- 令牌分类
- 表格问答
- 问答
- 零样本分类
- 摘要
- 特征提取
- 文本生成
- 文本到文本生成
数据集特征:
- chosen:
- content: 字符串类型
- role: 字符串类型
- rejected:
- content: 字符串类型
- role: 字符串类型
- prompt: 字符串类型
数据分割:
- 训练集:
- 字节数: 28576871.836713996
- 示例数: 9761
- 测试集:
- 字节数: 3176509.163286004
- 示例数: 1085
下载大小: 16148886字节
数据集大小: 31753381.0字节
配置:
- 默认配置:
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*



