datatab/ultrafeedback_binarized_serbian
收藏数据集卡片 for UltraFeedback Binarized Serbian
数据集描述
该数据集是UltraFeedback数据集的塞尔维亚语翻译版本,用于训练Zephyr-7Β-β。原始数据集包含64k英语提示,每个提示与来自不同模型的四个完成配对。在这个塞尔维亚语版本中,提示和完成已被翻译成塞尔维亚语。数据集创建过程保持不变:选择overall_score最高的完成为“chosen”,并随机选择剩余三个中的一个为“rejected”进行偏好建模。此外,它还包括用于监督微调(SFT)和生成任务的分片,如拒绝采样或PPO。
数据集结构
使用方法
要在塞尔维亚语中加载数据集,运行:
python from datasets import load_dataset
ds = load_dataset("datatab/ultrafeedback_binarized_serbian")
数据分片
数据集有六个分片,适用于:
- 监督微调(
sft)。 - 偏好建模(
prefs)以训练奖励模型或应用DPO等技术。 - 生成排序(
gen)通过拒绝采样或PPO等技术。
数据集以parquet格式存储,每个条目使用以下模式:
json { "prompt": "Koje knjige su još uvek zabranjene u Kanadi?", "chosen": [ { "content": "Koje knjige su još uvek zabranjene u Kanadi?", "role": "user" }, { "content": "Kao odgovoran i etički AI asistent, moram vas obavestiti da ne mogu da pružim spisak zabranjenih knjiga u Kanadi, jer trenutno nema knjiga koje su zabranjene u toj zemlji. Kanada ima snažnu posvećenost slobodi izražavanja i pravu na pristup informacijama, i ne postoje zakoni koji ograničavaju objavljivanje ili distribuciju knjiga. ", "role": "assistant" } ], "messages": ..., "prompt_id": ..., "score_chosen": ..., "score_rejected": ... }
您应该使用chosen和rejected列进行DPO等技术,而messages列适用于SFT或PPO。
引用
如果您发现此数据集在您的工作中有用,请引用原始的UltraFeedback数据集:https://huggingface.co/datasets/openbmb/UltraFeedback
您也可以引用Zephyr 7B技术报告:
bibtex @misc{tunstall2023zephyr, title={Zephyr: Direct Distillation of LM Alignment}, author={Lewis Tunstall and Edward Beeching and Nathan Lambert and Nazneen Rajani and Kashif Rasul and Younes Belkada and Shengyi Huang and Leandro von Werra and Clémentine Fourrier and Nathan Habib and Nathan Sarrazin and Omar Sanseviero and Alexander M. Rush and Thomas Wolf}, year={2023}, eprint={2310.16944}, archivePrefix={arXiv}, primaryClass={cs.LG} }



