five

OASST2和HelpSteer2

收藏
arXiv2025-03-12 更新2025-03-14 收录
下载链接:
https://huggingface.co/datasets/sablo/oasst2_curated, https://huggingface.co/datasets/OpenAssistant/oasst2, https://huggingface.co/datasets/LumiOpen/ifeval_mt
下载链接
链接失效反馈
官方服务:
资源简介:
OASST2是一个经过精心挑选的英语对话数据集,包含顶级对话内容。HelpSteer2是一个包含公开来源提示和LLM生成完成的偏置数据集。这些数据集被翻译成芬兰语以进行指令遵循和偏好优化训练。作者使用这些数据集对多语言LLM进行微调,并在Finnish LLM开发中做出了贡献,通过开放许可发布了数据集、配方和模型。

OASST2 is a carefully curated English conversational dataset containing top-tier dialogue content. HelpSteer2 is a bias dataset comprising publicly sourced prompts and completions generated by LLMs. These datasets were translated into Finnish for instruction following and preference optimization training. The authors used these datasets to fine-tune multilingual LLMs, contributed to Finnish LLM development, and released the datasets, recipes, and models under open licenses.
提供机构:
芬兰图尔库大学TurkuNLP
创建时间:
2025-03-12
搜集汇总
数据集介绍
main_image_url
构建方式
OASST2和HelpSteer2数据集的构建主要是通过机器翻译 existing 的英文数据集来获得芬兰语数据。具体来说,使用Poro模型将OpenAssistant 2 (OASST2)数据集和HelpSteer2偏好数据集从英文翻译成芬兰语,再经过清洗后得到最终的芬兰语数据集。
使用方法
使用该数据集的方法包括:1) 作为指令遵循模型的训练数据;2) 作为指令遵循模型的评估数据;3) 结合其他数据集进行多语言指令遵循模型的训练和评估。
背景与挑战
背景概述
OASST2和HelpSteer2数据集的研究背景源于大规模语言模型在指令遵循方面的应用需求。该研究由Silo AI和TurkuNLP团队共同完成,主要针对的是英语和芬兰语两种语言。研究的主要问题是,当前指令遵循的方法在高资源语言中取得了成功,但在低资源语言中尚未得到验证。因此,研究团队采用了Poro 34B模型进行跨语言指令遵循的训练和评估,以探索在芬兰语中实现指令遵循的可能性。该数据集的创建对相关领域产生了重要影响,为芬兰语的语言模型研究提供了宝贵的资源。
当前挑战
在构建OASST2和HelpSteer2数据集的过程中,研究团队面临着多个挑战。首先,由于芬兰语是低资源语言,获取足够的训练数据是一项挑战。其次,现有的数据集大多受版权限制,难以获取。此外,针对芬兰语的评估基准也不够完善。在数据集构建过程中,研究团队采取了机器翻译等技术手段来增加数据量,并实验了不同的数据组合和训练策略,以克服这些挑战。
常用场景
经典使用场景
OASST2和HelpSteer2数据集最经典的使用场景是作为指令微调(instruction tuning)和偏好优化(preference optimization)的基准数据。指令微调旨在训练语言模型以更好地理解和执行人类的指令,而偏好优化则希望模型能够生成符合人类喜好的响应。这两个数据集为此类研究提供了丰富的样本资源和参考基准。
解决学术问题
该数据集解决了小语种语言模型指令跟随微调数据不足的问题,同时也为评估不同指令微调方法的效果提供了统一的基准。其意义在于推动了小语种语言模型的研究和应用,对提升多语言交流的智能水平有重要影响。
实际应用
实际应用中,基于OASST2和HelpSteer2数据集训练的语言模型可以用于构建聊天机器人、智能助手等应用,提升其理解用户指令和生成合适响应的能力,从而改善用户体验。
数据集最近研究
最新研究方向
本研究主要探讨了在资源较少的语言中,如芬兰语,对大型语言模型进行指令微调的效果。研究中,我们使用多语言大型语言模型Poro 34B,通过翻译指令和偏好数据集,进行指令微调和偏好优化。研究结果表明,即使在只有几百个芬兰语指令样本的情况下,也能获得与使用十倍数量样本相当的性能。此外,研究还发现,偏好优化在英语上可以获得一些跨语言的好处,但在芬兰语上的效果有限。该研究为芬兰语的大型语言模型开发做出了贡献,并开源了相关数据集、配方和模型。
相关研究论文
  • 1
    Got Compute, but No Data: Lessons From Post-training a Finnish LLM芬兰图尔库大学TurkuNLP · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作