sms1097/self_rag_tokens_train_data
收藏Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sms1097/self_rag_tokens_train_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Self-Rag Tokens Dataset,是从Self-Rag training data工作中衍生出来的。Self-RAG展示了如何训练大型语言模型(LLM)来预测检索的标记、上下文是否相关、答案是否被支持以及响应的有用性。然而,Self-RAG的局限性在于需要训练LLM,这可能既复杂又昂贵。为了解决这个问题,提出了一个新的任务,即使用指令、上下文和生成的答案,通过独立的分类模型来预测这些标记。数据集包含了用于训练的多种标记及其对应的数值,如检索、相关性、支持和有用性等。
该数据集名为Self-Rag Tokens Dataset,是从Self-Rag training data工作中衍生出来的。Self-RAG展示了如何训练大型语言模型(LLM)来预测检索的标记、上下文是否相关、答案是否被支持以及响应的有用性。然而,Self-RAG的局限性在于需要训练LLM,这可能既复杂又昂贵。为了解决这个问题,提出了一个新的任务,即使用指令、上下文和生成的答案,通过独立的分类模型来预测这些标记。数据集包含了用于训练的多种标记及其对应的数值,如检索、相关性、支持和有用性等。
提供机构:
sms1097
原始信息汇总
Self-Rag Tokens Dataset
数据集概述
- 语言: 英语
- 许可证: MIT
- 数据集名称: f
数据集信息
特征
- instruction: 字符串
- retrieval: 字符串
- doc: 字符串
- relevant: 字符串
- answer: 字符串
- support: 字符串
- utility: 字符串
- index_level_0: 整数
分割
- train:
- 字节数: 49969679
- 样本数: 79132
大小
- 下载大小: 29115294
- 数据集大小: 49969679
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
任务描述
该数据集提出了一项新任务,使用指令、上下文和生成的答案,训练独立的分类模型来预测这些标记。这允许构建一个更灵活的系统,控制何时生成反射标记以及使用哪个LLM。
训练标记
检索
- No Retrieval: 51015
- Retrieval: 28117
相关性
- Relevant: 24251
- Irrelevant: 3866
支持
- Fully supported: 19170
- Partially supported: 3259
- No support / Contradictory: 1822
实用性
- Utility:5: 65774
- Utility:4: 6387
- Utility:2: 4300
- Utility:1: 2601
- Utility:3: 70



