llmware/rag_instruct_test_dataset2_financial_0.1
收藏Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/llmware/rag_instruct_test_dataset2_financial_0.1
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于测试retrieval augmented generation(RAG)在金融数据提取和分析中应用的测试数据集。它包括100个样本,这些样本包含从金融市场中常见的检索场景中提取的上下文段落,如财务收益发布、股市更新、财务表格和金融新闻。数据集的主要用途是评估与封闭上下文、基于事实的问答、键值提取和带项目符号的摘要相结合的指令微调LLM的有效性。数据集的结构包括100个JSONL样本,每个样本包含4个键:query、context、answer和sample_number。数据集是用英语编写的,且不包含个人和敏感信息。
提供机构:
llmware
原始信息汇总
数据集卡片 - RAG-Instruct-Financial-Test-Dataset
数据集概述
这是一个用于“检索增强生成”(RAG)用例的测试数据集,特别是针对金融数据提取和分析。数据集包含一系列与表格金融数据和常识性数学操作(如小增量、减量、排序和排序,以及识别特定来源中未包含的信息)相关的问题。该测试数据集包含100个样本,上下文段落从金融市场的常见“检索场景”中提取,包括财务盈利发布、股市更新、财务表格和金融新闻。主要用例是评估与封闭上下文、基于事实的问答、键值提取和要点总结相结合的指令微调LLM的有效性。上下文段落在此测试集中相对较短,范围从约100个标记到约500个标记,专为BLING系列模型设计,但适用于任何LLM的基本RAG场景的比较评估。
这是llmware系列RAG-Instruct测试数据集的一部分。
语言
英语
数据集结构
100个JSONL样本,包含4个键:"query" | "context" | "answer" | "sample_number"
个人和敏感信息
数据集样本是为这一目标定制编写的,但确实依赖一些公共信息,包括主要公众人物和广泛报道的事件。任何其他名称都是创建/屏蔽的,与真实公司或人物的任何重叠都是巧合。
数据集卡片联系
Darren Oberst & llmware团队
如有兴趣参与此项目并希望与我们合作,请随时联系!



