five

mmosiolek/pl_alpaca_data_cleaned

收藏
Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mmosiolek/pl_alpaca_data_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
Polpaca数据集是波兰语版本的Alpaca数据集,专门用于构建和评估指令跟随模型。该数据集通过GPT-3.5-Turbo和DeepL工具进行翻译,翻译过程耗时5天,并涉及一定的成本。翻译过程中遇到了一些挑战,例如某些任务无法直接翻译到另一种语言,这需要在手动质量评估时特别注意。

--- 许可证:CC BY 4.0 语言:波兰语(pl) 标签: - llama - Alpaca(Alpaca) - ChatGPT(chat-gpt) - self-instruct(self-instruct) - GPT(gpt) --- # Polpaca:波兰语版Alpaca(Alpaca) 模型获取地址:https://huggingface.co/mmosiolek/polpaca-lora-7b 本仓库收录了用于构建与评估指令跟随模型Alpaca(Alpaca)的波兰语翻译数据集。 ### 训练数据 本次翻译所依托的原始数据集为:https://github.com/gururise/AlpacaDataCleaned,该数据集亦可通过以下地址获取:https://huggingface.co/datasets/yahma/alpaca-cleaned。 本次翻译工作依托GPT-3.5-Turbo及OpenAI平台赠送的18美元免费额度完成。但翻译总成本超出了该免费额度,因此我自掏腰包补充了7美元;) 尽管翻译成本极低,整个流程仍耗时5天方才完成。 本次翻译所使用的提示词模板基于论文 https://arxiv.org/abs/2301.08745 设计,具体如下: 请为以下语句提供波兰语翻译:[TEXT] ### 人工质量评估 为完成评估工作,本次同时翻译了self-instruct(self-instruct)评估数据集,此次翻译借助DeepL平台完成——该平台每月可提供50万字符的免费翻译额度。 但该翻译方式存在一定局限性:原始数据集中的部分任务无法直接跨语言迁移。例如,我们无法将原语言中的拼写错误直接移植到波兰语版本中。在手动审核最终结果时,务必注意这一限制。
提供机构:
mmosiolek
原始信息汇总

数据集概述

数据集名称

Polpaca: The Polish Alpaca

数据集内容

该数据集包含用于构建和评估指令遵循模型Alpaca的波兰语翻译数据。

数据来源

翻译方法

  • 使用GPT-3.5-Turbo进行翻译。
  • 翻译成本超出OpenAI平台提供的$18信用额度,额外支付$7。
  • 翻译过程耗时5天。

翻译提示

Please provide the Polish translation for these sentences: [TEXT]

质量评估

  • 使用DeepL进行自我指导评估数据集的翻译。
  • 存在限制,如无法将某些原始数据集中的任务简单翻译成另一种语言,例如无法传播拼写错误。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作