five

LumiOpen/instruction-collection-fin

收藏
Hugging Face2024-06-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/LumiOpen/instruction-collection-fin
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从多个来源编译的芬兰语指令数据集。大部分原始数据为英语,通过机器翻译转换为芬兰语,并补充了芬兰语的释义任务和英芬翻译及语言识别任务。该数据集适用于微调大型语言模型以遵循芬兰语指令,并可用于商业用途。数据集的构建包括从英语数据集中选择高质量样本进行翻译,使用不同的翻译模型进行实验,并通过启发式方法过滤低质量翻译。此外,还构建了翻译和语言识别指令数据集,以及芬兰语释义指令数据集。

这是一个从多个来源编译的芬兰语指令数据集。大部分原始数据为英语,通过机器翻译转换为芬兰语,并补充了芬兰语的释义任务和英芬翻译及语言识别任务。该数据集适用于微调大型语言模型以遵循芬兰语指令,并可用于商业用途。数据集的构建包括从英语数据集中选择高质量样本进行翻译,使用不同的翻译模型进行实验,并通过启发式方法过滤低质量翻译。此外,还构建了翻译和语言识别指令数据集,以及芬兰语释义指令数据集。
提供机构:
LumiOpen
原始信息汇总

数据集概述

基本信息

  • 许可证:Apache-2.0
  • 语言:芬兰语(fi)、英语(en)
  • 大小:10K<n<100K
  • 标签:instruction

数据集描述

本数据集是由多个来源的芬兰语指令数据组成,大部分原始数据为英语,通过Poro-34B机器翻译成芬兰语。此外,还补充了芬兰语的改写任务、英芬翻译及语言识别任务。该数据集适用于微调LLMs以遵循芬兰语指令,并可用于商业目的。

数据来源

数据处理

  • 英语文档选择:从英语数据集中选取高质量样本进行翻译。
  • 英语到芬兰语翻译:使用OPUS-MT和Poro-34b进行机器翻译,并通过用户评估选择最佳模型输出。
  • 翻译和语言识别数据集:从FLORES开发集中构建翻译指令数据集,使用特定模板进行格式化。
  • 改写数据集:从Turku改写语料库中随机选择2000个样本,使用特定模板构建改写指令数据。

许可证

本数据集根据Apache 2.0许可证发布,但原始数据集可能具有不同的许可证。已尽最大努力确保所包含的数据集可用于商业用途,且不违反任何使用条款限制。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作