llmware/rag_instruct_test_dataset2_financial_0.1

Name: llmware/rag_instruct_test_dataset2_financial_0.1
Creator: llmware
Published: 2023-10-23 15:01:44
License: 暂无描述

Hugging Face2023-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/llmware/rag_instruct_test_dataset2_financial_0.1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于测试retrieval augmented generation（RAG）在金融数据提取和分析中应用的测试数据集。它包括100个样本，这些样本包含从金融市场中常见的检索场景中提取的上下文段落，如财务收益发布、股市更新、财务表格和金融新闻。数据集的主要用途是评估与封闭上下文、基于事实的问答、键值提取和带项目符号的摘要相结合的指令微调LLM的有效性。数据集的结构包括100个JSONL样本，每个样本包含4个键：query、context、answer和sample_number。数据集是用英语编写的，且不包含个人和敏感信息。

提供机构：

llmware

原始信息汇总

数据集卡片 - RAG-Instruct-Financial-Test-Dataset

数据集概述

这是一个用于“检索增强生成”（RAG）用例的测试数据集，特别是针对金融数据提取和分析。数据集包含一系列与表格金融数据和常识性数学操作（如小增量、减量、排序和排序，以及识别特定来源中未包含的信息）相关的问题。该测试数据集包含100个样本，上下文段落从金融市场的常见“检索场景”中提取，包括财务盈利发布、股市更新、财务表格和金融新闻。主要用例是评估与封闭上下文、基于事实的问答、键值提取和要点总结相结合的指令微调LLM的有效性。上下文段落在此测试集中相对较短，范围从约100个标记到约500个标记，专为BLING系列模型设计，但适用于任何LLM的基本RAG场景的比较评估。

这是llmware系列RAG-Instruct测试数据集的一部分。

语言

英语

数据集结构

100个JSONL样本，包含4个键："query" | "context" | "answer" | "sample_number"

个人和敏感信息

数据集样本是为这一目标定制编写的，但确实依赖一些公共信息，包括主要公众人物和广泛报道的事件。任何其他名称都是创建/屏蔽的，与真实公司或人物的任何重叠都是巧合。

数据集卡片联系

Darren Oberst & llmware团队

如有兴趣参与此项目并希望与我们合作，请随时联系！

5,000+

优质数据集

54 个

任务类型

进入经典数据集