parsee-ai/finRAG
收藏Hugging Face2024-05-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/parsee-ai/finRAG
下载链接
链接失效反馈官方服务:
资源简介:
finRAG数据集是由parsee.ai发布的官方Huggingface仓库,旨在研究当前最先进的(M)LLMs在从公开的财务报告中提取收入数字这一相对简单问题上的表现。数据集基于2023年随机选择的100家美国上市公司的年度报告,包含三个不同的数据集:Selection-text、RAG-text和Selection-image。这些数据集分别提供了不同的数据输入方式,以测试LLMs在不同条件下的表现。数据集总共包含10,404行数据,37,536,847个标记和1,156张图像。
finRAG数据集是由parsee.ai发布的官方Huggingface仓库,旨在研究当前最先进的(M)LLMs在从公开的财务报告中提取收入数字这一相对简单问题上的表现。数据集基于2023年随机选择的100家美国上市公司的年度报告,包含三个不同的数据集:Selection-text、RAG-text和Selection-image。这些数据集分别提供了不同的数据输入方式,以测试LLMs在不同条件下的表现。数据集总共包含10,404行数据,37,536,847个标记和1,156张图像。
提供机构:
parsee-ai
原始信息汇总
finRAG Datasets 概述
数据集详情
- 许可协议:MIT
- 任务类别:
- 视觉问答
- 表格问答
- 文本检索
- 问答
- 数据集大小:10K<n<100K
数据集组成
- Selection-text:包含相关的利润与损失报表,其中包含我们寻找的收入数字。
- RAG-text:模拟真实世界的RAG应用,将原始文档分割成块,基于问题进行向量搜索,并向LLMs展示最相关的块。
- Selection-image:类似于Selection-text,但向模型提供的是包含解决问题所需信息的利润与损失报表的图像。
数据集统计
- 总行数:10,404
- 总令牌数:37,536,847
- 总图像数:1,156



