mmosiolek/pl_alpaca_data_cleaned
收藏Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mmosiolek/pl_alpaca_data_cleaned
下载链接
链接失效反馈官方服务:
资源简介:
Polpaca数据集是波兰语版本的Alpaca数据集,专门用于构建和评估指令跟随模型。该数据集通过GPT-3.5-Turbo和DeepL工具进行翻译,翻译过程耗时5天,并涉及一定的成本。翻译过程中遇到了一些挑战,例如某些任务无法直接翻译到另一种语言,这需要在手动质量评估时特别注意。
---
许可证:CC BY 4.0
语言:波兰语(pl)
标签:
- llama
- Alpaca(Alpaca)
- ChatGPT(chat-gpt)
- self-instruct(self-instruct)
- GPT(gpt)
---
# Polpaca:波兰语版Alpaca(Alpaca)
模型获取地址:https://huggingface.co/mmosiolek/polpaca-lora-7b
本仓库收录了用于构建与评估指令跟随模型Alpaca(Alpaca)的波兰语翻译数据集。
### 训练数据
本次翻译所依托的原始数据集为:https://github.com/gururise/AlpacaDataCleaned,该数据集亦可通过以下地址获取:https://huggingface.co/datasets/yahma/alpaca-cleaned。
本次翻译工作依托GPT-3.5-Turbo及OpenAI平台赠送的18美元免费额度完成。但翻译总成本超出了该免费额度,因此我自掏腰包补充了7美元;) 尽管翻译成本极低,整个流程仍耗时5天方才完成。
本次翻译所使用的提示词模板基于论文 https://arxiv.org/abs/2301.08745 设计,具体如下:
请为以下语句提供波兰语翻译:[TEXT]
### 人工质量评估
为完成评估工作,本次同时翻译了self-instruct(self-instruct)评估数据集,此次翻译借助DeepL平台完成——该平台每月可提供50万字符的免费翻译额度。
但该翻译方式存在一定局限性:原始数据集中的部分任务无法直接跨语言迁移。例如,我们无法将原语言中的拼写错误直接移植到波兰语版本中。在手动审核最终结果时,务必注意这一限制。
提供机构:
mmosiolek
原始信息汇总
数据集概述
数据集名称
Polpaca: The Polish Alpaca
数据集内容
该数据集包含用于构建和评估指令遵循模型Alpaca的波兰语翻译数据。
数据来源
- 原始数据集:AlpacaDataCleaned
- 翻译后的数据集:yahma/alpaca-cleaned
翻译方法
- 使用GPT-3.5-Turbo进行翻译。
- 翻译成本超出OpenAI平台提供的$18信用额度,额外支付$7。
- 翻译过程耗时5天。
翻译提示
Please provide the Polish translation for these sentences: [TEXT]
质量评估
- 使用DeepL进行自我指导评估数据集的翻译。
- 存在限制,如无法将某些原始数据集中的任务简单翻译成另一种语言,例如无法传播拼写错误。



