numersense

github2023-12-18 更新2024-05-31 收录

下载链接：

https://github.com/INK-USC/RationaleMultiRewardDistillation

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了训练/验证/测试数据分割，存储在文件夹`data/[dataset-name]/raw`中。子文件夹`gpt3`、`llama`和`flant5`包含了所有数据集的采样测试集响应，以及我们用作银标准训练数据的GPT-3采样训练集响应。

We provide the training/validation/test data splits, stored in the folder `data/[dataset-name]/raw`. The subfolders `gpt3`, `llama`, and `flant5` contain the sampled test set responses for all datasets, as well as the GPT-3 sampled training set responses that we used as silver standard training data.

创建时间：

2023-11-01

原始信息汇总

数据集概述

数据集位置

数据集文件位于目录 data/[dataset-name]/raw 中，包含训练集、验证集和测试集。

数据集内容

子目录 gpt3, llama, 和 flant5 包含以下内容：
- 来自 GPT-3、LLaMa 7B/65B 和 FLAN-T5-L/XL/XXL 的样本测试集响应。
- 来自 GPT-3 的样本训练集响应，用作银标准训练数据。

数据集使用

数据集用于训练和评估模型，具体包括：
- 基础模型（SFT）的训练命令。
- 奖励模型（consistency）的训练命令，包括 I2O 和 IR2O 模型。
- MaRio 模型的训练命令。

数据集输出

验证集和测试集的奖励/准确度分数将保存至 path-to-model-dir/reward/reward_scores_[val-or-test]_greedy.txt。
预测的理性将保存至 path-to-model-dir/reward/eval_output[val-or-test]_greedy_[ckp-num].jsonl。

搜集汇总

数据集介绍

构建方式

numersense数据集的构建基于多奖励蒸馏技术，旨在为自解释模型提供高质量的训练数据。数据集通过从GPT-3、LLaMa 7B/65B和FLAN-T5-L/XL/XXL等大型语言模型中采样生成测试集响应，并结合GPT-3生成的训练集响应作为银标准数据。这种构建方式确保了数据的多样性和代表性，为模型训练提供了丰富的语境和解释性内容。

使用方法

numersense数据集的使用方法主要包括模型的训练和评估。用户可以通过提供的训练脚本，使用数据集中的训练集、验证集和测试集进行模型的微调和评估。训练过程中，用户可以选择不同的模型架构和参数设置，以优化模型的性能。评估阶段，模型生成的解释性内容和奖励分数将被保存，便于进一步分析和比较。这种使用方法为研究人员提供了灵活的工具，以探索自解释模型在不同任务中的表现。

背景与挑战

背景概述

numersense数据集由南加州大学INK实验室的研究团队于2022年发布，主要研究人员包括Sahana Ramnath、Brihi Joshi、Skyler Hallinan等。该数据集旨在支持自解释模型的研究，特别是在多奖励蒸馏框架下的自我推理能力优化。数据集的核心研究问题是如何通过多奖励机制提升模型在生成解释时的准确性、一致性和多样性。该研究得到了美国国家情报总监办公室（ODNI）和高级情报研究计划活动（IARPA）的支持，对自然语言处理领域中的解释生成和模型优化具有重要影响。

当前挑战

numersense数据集在解决自解释模型的优化问题时面临多重挑战。首先，模型需要在生成解释时同时满足准确性、一致性和多样性的要求，这对多目标优化提出了较高的技术难度。其次，数据集的构建过程中，研究人员需要从GPT-3、LLaMa和FLAN-T5等大型语言模型中提取高质量的样本作为训练数据，这一过程不仅耗时，还需要克服模型输出不一致性和噪声问题。此外，如何设计有效的多奖励机制以平衡不同目标之间的冲突，也是该数据集研究中的核心挑战之一。

常用场景

经典使用场景

在自然语言处理领域，numersense数据集被广泛应用于训练和评估自解释模型。该数据集通过提供丰富的训练、验证和测试数据，帮助研究人员开发能够生成合理且连贯解释的模型。特别是在多奖励蒸馏框架下，numersense数据集被用于优化模型的解释生成能力，使其在生成解释时不仅考虑准确性，还兼顾一致性和多样性。

解决学术问题

numersense数据集解决了自解释模型在生成解释时的一致性和多样性问题。通过引入多奖励蒸馏机制，该数据集帮助模型在生成解释时平衡多个目标，如准确性、合理性和多样性。这一方法显著提升了模型在复杂任务中的表现，尤其是在需要生成高质量解释的场景中，为自然语言处理领域的研究提供了新的思路和工具。

实际应用

在实际应用中，numersense数据集被用于开发智能助手和自动化报告生成系统。这些系统能够为用户提供详细的解释和推理过程，帮助用户更好地理解模型的决策依据。例如，在金融、医疗和法律等领域，基于numersense数据集的模型能够生成高质量的解释，增强用户对自动化系统的信任和依赖。

数据集最近研究