five

sms1097/self_rag_tokens_train_data

收藏
Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sms1097/self_rag_tokens_train_data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Self-Rag Tokens Dataset,是从Self-Rag training data工作中衍生出来的。Self-RAG展示了如何训练大型语言模型(LLM)来预测检索的标记、上下文是否相关、答案是否被支持以及响应的有用性。然而,Self-RAG的局限性在于需要训练LLM,这可能既复杂又昂贵。为了解决这个问题,提出了一个新的任务,即使用指令、上下文和生成的答案,通过独立的分类模型来预测这些标记。数据集包含了用于训练的多种标记及其对应的数值,如检索、相关性、支持和有用性等。

该数据集名为Self-Rag Tokens Dataset,是从Self-Rag training data工作中衍生出来的。Self-RAG展示了如何训练大型语言模型(LLM)来预测检索的标记、上下文是否相关、答案是否被支持以及响应的有用性。然而,Self-RAG的局限性在于需要训练LLM,这可能既复杂又昂贵。为了解决这个问题,提出了一个新的任务,即使用指令、上下文和生成的答案,通过独立的分类模型来预测这些标记。数据集包含了用于训练的多种标记及其对应的数值,如检索、相关性、支持和有用性等。
提供机构:
sms1097
原始信息汇总

Self-Rag Tokens Dataset

数据集概述

  • 语言: 英语
  • 许可证: MIT
  • 数据集名称: f

数据集信息

特征

  • instruction: 字符串
  • retrieval: 字符串
  • doc: 字符串
  • relevant: 字符串
  • answer: 字符串
  • support: 字符串
  • utility: 字符串
  • index_level_0: 整数

分割

  • train:
    • 字节数: 49969679
    • 样本数: 79132

大小

  • 下载大小: 29115294
  • 数据集大小: 49969679

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*

任务描述

该数据集提出了一项新任务,使用指令、上下文和生成的答案,训练独立的分类模型来预测这些标记。这允许构建一个更灵活的系统,控制何时生成反射标记以及使用哪个LLM。

训练标记

检索

  • No Retrieval: 51015
  • Retrieval: 28117

相关性

  • Relevant: 24251
  • Irrelevant: 3866

支持

  • Fully supported: 19170
  • Partially supported: 3259
  • No support / Contradictory: 1822

实用性

  • Utility:5: 65774
  • Utility:4: 6387
  • Utility:2: 4300
  • Utility:1: 2601
  • Utility:3: 70
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作