LumiOpen/instruction-collection-fin
收藏Hugging Face2024-06-12 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/LumiOpen/instruction-collection-fin
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从多个来源编译的芬兰语指令数据集。大部分原始数据为英语,通过机器翻译转换为芬兰语,并补充了芬兰语的释义任务和英芬翻译及语言识别任务。该数据集适用于微调大型语言模型以遵循芬兰语指令,并可用于商业用途。数据集的构建包括从英语数据集中选择高质量样本进行翻译,使用不同的翻译模型进行实验,并通过启发式方法过滤低质量翻译。此外,还构建了翻译和语言识别指令数据集,以及芬兰语释义指令数据集。
这是一个从多个来源编译的芬兰语指令数据集。大部分原始数据为英语,通过机器翻译转换为芬兰语,并补充了芬兰语的释义任务和英芬翻译及语言识别任务。该数据集适用于微调大型语言模型以遵循芬兰语指令,并可用于商业用途。数据集的构建包括从英语数据集中选择高质量样本进行翻译,使用不同的翻译模型进行实验,并通过启发式方法过滤低质量翻译。此外,还构建了翻译和语言识别指令数据集,以及芬兰语释义指令数据集。
提供机构:
LumiOpen
原始信息汇总
数据集概述
基本信息
- 许可证:Apache-2.0
- 语言:芬兰语(fi)、英语(en)
- 大小:10K<n<100K
- 标签:instruction
数据集描述
本数据集是由多个来源的芬兰语指令数据组成,大部分原始数据为英语,通过Poro-34B机器翻译成芬兰语。此外,还补充了芬兰语的改写任务、英芬翻译及语言识别任务。该数据集适用于微调LLMs以遵循芬兰语指令,并可用于商业目的。
数据来源
- 英语:
- 芬兰语:
- 跨语言:
数据处理
- 英语文档选择:从英语数据集中选取高质量样本进行翻译。
- 英语到芬兰语翻译:使用OPUS-MT和Poro-34b进行机器翻译,并通过用户评估选择最佳模型输出。
- 翻译和语言识别数据集:从FLORES开发集中构建翻译指令数据集,使用特定模板进行格式化。
- 改写数据集:从Turku改写语料库中随机选择2000个样本,使用特定模板构建改写指令数据。
许可证
本数据集根据Apache 2.0许可证发布,但原始数据集可能具有不同的许可证。已尽最大努力确保所包含的数据集可用于商业用途,且不违反任何使用条款限制。



