llmware/rag_instruct_test_dataset_0.1

Name: llmware/rag_instruct_test_dataset_0.1
Creator: llmware
Published: 2023-11-04 07:03:13
License: 暂无描述

Hugging Face2023-11-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/llmware/rag_instruct_test_dataset_0.1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于企业环境中基本检索增强生成（RAG）用例的测试数据集，特别是在金融和法律领域。该测试数据集包含100个样本，上下文段落来自常见的检索场景，如财经新闻、财报发布、合同、发票、技术文章、一般新闻和短文本。主要用例是评估与封闭上下文、基于事实的问答、键值提取和带项目符号的摘要相结合的指令微调大语言模型（LLM）的有效性。该测试集中的上下文段落相对较短，范围从约100个词到约500个词，设计用于BLING系列模型，但也适用于任何LLM在基本RAG场景中的比较评估。

This is a test dataset for basic Retrieval-Augmented Generation (RAG) use cases in enterprise environments, particularly in the financial and legal sectors. This dataset contains 100 samples, with context paragraphs sourced from common retrieval scenarios including financial news, earnings announcements, contracts, invoices, technical articles, general news, and short texts. Its primary use case is to evaluate the effectiveness of instruction-tuned Large Language Models (LLMs) combined with closed-context, fact-based question answering, key-value extraction, and bullet-point summarization. The context paragraphs in this test set are relatively short, ranging from approximately 100 to 500 words. It is designed for the BLING series of models, but also applicable for comparative evaluation of any LLMs in basic RAG scenarios.

提供机构：

llmware

原始信息汇总

数据集卡片 - RAG-Instruct-Test-Dataset

数据集概述

这是一个用于企业中基本“检索增强生成”（RAG）用例的测试数据集，特别是在金融和法律领域。该测试数据集包含100个样本，上下文段落来自常见的检索场景，例如金融新闻、财报、合同、发票、技术文章、一般新闻和短文本。主要用例是评估与封闭上下文、基于事实的问答、关键值提取和要点总结相结合的指令微调LLM的有效性。上下文段落在此测试集中相对较短，范围从约100个标记到约500个标记，设计用于BLING系列模型，但适用于任何LLM的基本RAG场景的比较评估。

基本RAG测试数据集性能

模型	参数（亿）	来源	硬件	输出标记	输出占输入的百分比	处理时间（秒）	得分（0-100）
gpt-4	<=1000	封闭	多GPU	2665	10.53%	183.8	100
gpt-3.5-turbo-instruct	<=175	封闭	多GPU	2621	11.49%	62.7	100
claude-instant-v1	<=50	封闭	多GPU	6337	26.50%	154	100
aib-read-gpt	7	封闭	GPU	1964	9.30%	114	96
bling_falcon-1b-0.1	1.3	开放	CPU	3204	14.55%	696	77
bling_pythia-1.4b-0.1	1.4	开放	CPU	2589	11.75%	593.5	65
bling_pythia-1b-0.1	1.0	开放	CPU	2753	12.49%	428	59
bling_cerebras-1.3b	1.3	开放	CPU	3202	20.01%	690.1	52
bling_pythia_410m	0.41	NA	CPU	2349	10.66%	189	36
bling_cerebras_590m	0.59	NA	CPU	4407	20.01%	400.8	30

语言

英语

数据集结构

100个JSONL样本，包含4个键 - "query" | "context" | "answer" | "sample_number"

个人和敏感信息

数据集样本是为这一目标专门编写的，但确实依赖于一些公共信息，包括主要公众人物和广泛报道的事件。任何其他名称都是创建/屏蔽的，任何与真实公司或人物的重叠都是巧合。

搜集汇总

数据集介绍

构建方式

在金融与法律领域的检索增强生成技术评估中，该数据集通过精心设计构建而成。其包含100个样本，每个样本均采用JSONL格式，涵盖查询、上下文、答案及样本编号四个关键字段。上下文段落源自典型的检索场景，如财经新闻、收益报告、合同文本及技术文章等，长度控制在100至500个词元之间，旨在模拟企业环境中的实际信息需求。数据集的构建注重内容的多样性与代表性，所有样本均为定制编写，部分基于公开信息，同时通过匿名化处理确保敏感信息的保护，为后续的模型评估提供了可靠的基础。

特点

该数据集的核心特点在于其专注于基础检索增强生成场景的评估，特别适用于金融与法律等专业领域。其上下文段落短小精悍，覆盖了从新闻摘要到技术文档的多种文本类型，能够有效测试模型在封闭上下文下的问答、关键信息提取及要点总结能力。数据集结构简洁明了，每个样本均包含完整的查询-上下文-答案三元组，便于进行端到端的性能比较。此外，该数据集已用于多类模型的基准测试，包括GPT系列与BLING系列等，其结果以评分表格形式公开，为研究者和开发者提供了直观的性能参考。

使用方法

使用该数据集时，可将其应用于检索增强生成系统的评估与优化。用户需加载JSONL格式的样本，提取查询与上下文作为输入，通过指令微调的大语言模型生成答案，并与数据集提供的标准答案进行对比，以衡量模型的准确性与效率。该数据集特别适合测试模型在事实性问答、信息抽取及结构化总结任务上的表现，同时支持在不同硬件配置（如GPU与CPU）下进行性能基准比较。建议结合公开的性能评分表格，分析模型在输出词元比例、处理时间等指标上的差异，从而指导模型的选型与调优。

背景与挑战

背景概述

在人工智能与自然语言处理领域，检索增强生成（RAG）技术已成为企业级应用，特别是在金融与法律等专业场景中的关键研究方向。llmware/rag_instruct_test_dataset_0.1数据集由Darren Oberst及llmware团队于近期创建，旨在为RAG系统提供基础评估基准。该数据集聚焦于封闭上下文下的指令微调大语言模型，核心研究问题涉及事实性问答、关键信息抽取与摘要生成等任务的效能验证。通过整合金融新闻、财报发布、合同文本及技术文章等多样化语料，该数据集为RAG模型在真实企业环境中的适用性提供了初步测试框架，对推动领域标准化评估具有启发性影响。

当前挑战

该数据集所针对的领域挑战在于，企业级RAG应用需在专业领域如金融与法律中实现高精度、可解释的信息检索与生成，这对模型的上下文理解与事实一致性提出了严峻考验。构建过程中的挑战则体现于样本设计的代表性平衡：需在有限规模内涵盖多元文本类型，同时确保语料长度适中（约100至500词符），以适配不同规模模型的评估需求；此外，在避免敏感信息泄露的前提下，模拟真实场景的查询与上下文关联，亦对数据合成与掩码处理提出了精细要求。

常用场景

经典使用场景

在金融与法律领域的检索增强生成（RAG）技术评估中，该数据集作为基准测试工具，专门用于验证指令微调大语言模型在封闭上下文环境下的性能。通过模拟企业级文档处理场景，如财务报告、合同条款和新闻摘要，数据集中的100个样本涵盖了从简短文本到中等长度段落的多样化内容，旨在检验模型在事实性问答、关键信息提取和结构化摘要生成任务中的准确性与效率。

解决学术问题

该数据集致力于解决检索增强生成系统在真实企业应用中的评估难题，特别是针对金融与法律领域的高精度信息需求。它通过提供标准化的测试样本，帮助研究者量化模型在封闭上下文问答、关键值抽取和摘要生成等任务上的表现，从而推动RAG技术在实际场景中的可靠性与可解释性研究，为优化模型架构与训练策略提供实证依据。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，例如BLING系列轻量级模型的性能对比实验，以及针对开源与闭源大语言模型在RAG任务中的系统性评估。这些工作不仅拓展了数据集在跨模型比较中的应用，还促进了高效CPU部署策略的探索，为资源受限环境下的企业级RAG解决方案提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集