five

tulu-v2-sft-mixture-olmo-4096

收藏
魔搭社区2025-11-27 更新2025-05-31 收录
下载链接:
https://modelscope.cn/datasets/allenai/tulu-v2-sft-mixture-olmo-4096
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card for Tulu V2 Mix (4096 OLMo version) *Note the [ODC-BY license](https://opendatacommons.org/licenses/by/1-0/), indicating that different licenses apply to subsets of the data. This means that some portions of the dataset are non-commercial. We present the mixture as a research artifact.* This is a modified version of the [Tulu V2 Mix](https://huggingface.co/datasets/allenai/tulu-v2-sft-mixture) used to train newer (after April 2024) OLMo-SFT/Instruct variants (e.g. [this model](https://huggingface.co/allenai/OLMo-7B-0424-SFT-hf), or [this one](https://huggingface.co/allenai/OLMo-7B-0724-SFT-hf)). The only difference is that the hardcoded subset (`dataset='hard_coded'`) has been replaced with similar examples about OLMo rather than Tulu. Please see the original [Tulu V2 Mix dataset card](https://huggingface.co/datasets/allenai/tulu-v2-sft-mixture) for details! ### License We are releasing this dataset under the terms of [ODC-BY](https://opendatacommons.org/licenses/by/1-0/). By using this, you are also bound by the [Common Crawl terms of use](https://commoncrawl.org/terms-of-use/) in respect of the content contained in the dataset.

# Tulu V2 Mix(4096 OLMo版本)数据集卡片 *请注意其采用[ODC-BY许可协议](https://opendatacommons.org/licenses/by/1-0/),该协议规定数据集的不同子集适用各异的许可条款。这意味着该数据集的部分内容不得用于商业用途。本混合数据集作为研究用数据集制品发布。 本数据集是为训练2024年4月之后推出的OLMo-SFT/指令微调变体(例如[此模型](https://huggingface.co/allenai/OLMo-7B-0424-SFT-hf)与[此模型](https://huggingface.co/allenai/OLMo-7B-0724-SFT-hf))而开发的[Tulu V2 Mix](https://huggingface.co/datasets/allenai/tulu-v2-sft-mixture)修改版本。二者唯一差异在于,原硬编码子集(`dataset='hard_coded'`)中的示例已替换为围绕OLMo而非Tulu的相似示例。详细信息请参阅原始[Tulu V2 Mix数据集卡片](https://huggingface.co/datasets/allenai/tulu-v2-sft-mixture)! ### 许可协议 我们依据[ODC-BY](https://opendatacommons.org/licenses/by/1-0/)协议发布本数据集。使用本数据集的用户,同时需遵守[Common Crawl使用条款](https://commoncrawl.org/terms-of-use/)中针对数据集所含内容的相关规定。
提供机构:
maas
创建时间:
2025-05-27
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是Tulu V2 Mix的修改版本,专为训练OLMo-SFT/Instruct模型设计,其中替换了hardcoded子集以包含OLMo相关内容。它采用ODC-BY许可证,部分数据可能限制非商业使用,主要作为研究工具发布。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作