Raspberry

github2024-09-14 更新2024-09-15 收录

下载链接：

https://github.com/daveshap/Raspberry

下载链接

链接失效反馈

官方服务：

资源简介：

创建一个开源的玩具数据集，用于微调具有推理能力的大型语言模型。该数据集将包含500个不同领域的复杂用户查询，涵盖数学、编程、逻辑、推理和规划等技能，并涉及医学、科学、软件开发等经济价值高的领域。数据集将通过一系列自动化提示策略生成答案，并使用评分标准和类似的技术来评估和改进样本质量。

Develop an open-source toy dataset for fine-tuning reasoning-capable large language models (LLMs). This dataset will include 500 complex user queries across diverse domains, covering skills including mathematics, programming, logic, reasoning and planning, and involving high-economic-value fields such as medicine, science and software development. Answers will be generated via a series of automated prompting strategies, and scoring criteria and analogous techniques will be utilized to evaluate and improve the quality of the dataset samples.

创建时间：

2024-09-14

原始信息汇总

Raspberry 数据集

任务

创建一个开源的玩具数据集，用于微调具有推理能力的大型语言模型（LLMs）。

方法

合成复杂的用户查询： 首先合成500个不同领域的用户查询，这些查询需要多种技能和能力，如数学、编码、逻辑、推理和规划。查询涵盖医学、科学、软件开发等经济价值高的领域。通过评分标准和类似的技术来测量和改进样本。
合成CoT和自我批评数据： 使用多种自动提示策略合成用户查询的答案。模型如Claude已展示在正确提示下使用CoT推理的能力，并能自我批评和自我纠正。
清理和修正样本： 使用评分标准和类似技术评估CoT和自我批评样本的质量，并通过一系列提示清理样本，使其代表单一、连贯的响应，适合“单次推理”数据集。
使用玩具数据集微调LLM： 第一个模型将是一个试点，更多是概念验证。测试其性能并进行迭代。
扩大规模并寻求资金： 假设获得可接受的结果，可能会寻求资金支持更大规模的数据集，进行更强大的测试和基准测试。确保开源数据集覆盖多个任务和领域，易于使用和适应多种框架和架构。可能从Manifund项目启动。

搜集汇总

数据集介绍

构建方式

在构建Raspberry数据集的过程中，研究团队首先通过合成500个不同领域的复杂用户查询来启动项目。这些查询涵盖了从医学和科学到软件开发等多个高价值领域，要求模型具备数学、编码、逻辑推理和规划等多种能力。随后，利用诸如Claude等模型，通过自动化提示策略生成链式推理（CoT）和自我批判的数据。通过使用评分标准和类似的评估技术，对生成的数据进行质量评估和修正，确保每个样本代表一个单一且连贯的响应。最终，这些经过清洗和修正的样本将被用于微调大型语言模型（LLM），以验证其推理能力的提升。

特点

Raspberry数据集的主要特点在于其多样性和复杂性。该数据集不仅涵盖了广泛的领域，包括医学、科学和软件开发等，还要求模型具备多种高级技能，如数学推理、编码能力和逻辑分析。此外，数据集中的每个样本都经过精心设计和修正，以确保其适用于单一推理任务，从而为模型提供了一个理想的学习环境。这种设计使得Raspberry数据集在训练和评估具有推理能力的语言模型时，具有显著的优势。

使用方法

Raspberry数据集主要用于微调大型语言模型（LLM），以提升其推理和问题解决能力。用户可以通过加载该数据集，利用其丰富的多领域查询和对应的链式推理（CoT）及自我批判数据，对现有模型进行进一步的训练和优化。此外，该数据集还支持多种框架和架构，使得用户可以根据具体需求进行灵活的调整和应用。通过使用Raspberry数据集，研究人员和开发者可以有效地提升模型的推理性能，并探索其在不同任务和领域中的应用潜力。

背景与挑战

背景概述

Raspberry数据集由Dave Shap主导，旨在创建一个开源的玩具数据集，用于微调具有推理能力的大型语言模型（LLMs）。该数据集的核心研究问题是如何通过合成复杂用户查询和生成链式推理（CoT）及自我批评数据，来提升LLMs的推理能力。Raspberry的创建不仅填补了开源推理数据集的空白，还为学术界和工业界提供了一个重要的基准，以评估和改进推理模型的性能。

当前挑战

Raspberry数据集在构建过程中面临多项挑战。首先，合成复杂用户查询需要跨多个领域和任务，涵盖数学、编程、逻辑等多个技能，这要求高度的专业知识和广泛的领域覆盖。其次，生成高质量的链式推理和自我批评数据依赖于精确的自动化提示策略，这需要对模型行为有深入的理解和精细的调整。最后，数据集的清洁和校正过程需要严格的评估标准和多次迭代，以确保数据的一致性和适用性。

常用场景

经典使用场景

在自然语言处理领域，Raspberry数据集的经典使用场景主要集中在微调大型语言模型（LLMs）以增强其推理能力。该数据集通过合成复杂用户查询，涵盖数学、编程、逻辑推理等多个领域，为模型提供了丰富的训练样本。通过使用Chain of Thought（CoT）和自我批评技术，数据集能够生成高质量的推理答案，从而帮助模型在处理复杂任务时表现出更强的逻辑性和准确性。

解决学术问题

Raspberry数据集解决了在自然语言处理研究中，如何有效提升大型语言模型推理能力的关键问题。通过提供多样化且高质量的训练样本，该数据集使得研究人员能够在不依赖大量资金的情况下，实现接近最先进（SOTA）的推理性能。这不仅推动了开源社区在模型微调方面的研究进展，也为后续的模型优化和应用提供了坚实的基础。

衍生相关工作

Raspberry数据集的发布激发了大量相关研究工作，特别是在开源模型微调和推理能力提升方面。许多研究团队基于该数据集开发了新的微调策略和模型架构，进一步提升了模型的推理性能。此外，该数据集还促进了开源社区在强化学习训练模型方面的合作，推动了多个开源模型的发布和应用。这些衍生工作不仅丰富了自然语言处理的研究内容，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集