five

parsee-ai/finRAG

收藏
Hugging Face2024-05-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/parsee-ai/finRAG
下载链接
链接失效反馈
官方服务:
资源简介:
finRAG数据集是由parsee.ai发布的官方Huggingface仓库,旨在研究当前最先进的(M)LLMs在从公开的财务报告中提取收入数字这一相对简单问题上的表现。数据集基于2023年随机选择的100家美国上市公司的年度报告,包含三个不同的数据集:Selection-text、RAG-text和Selection-image。这些数据集分别提供了不同的数据输入方式,以测试LLMs在不同条件下的表现。数据集总共包含10,404行数据,37,536,847个标记和1,156张图像。

finRAG数据集是由parsee.ai发布的官方Huggingface仓库,旨在研究当前最先进的(M)LLMs在从公开的财务报告中提取收入数字这一相对简单问题上的表现。数据集基于2023年随机选择的100家美国上市公司的年度报告,包含三个不同的数据集:Selection-text、RAG-text和Selection-image。这些数据集分别提供了不同的数据输入方式,以测试LLMs在不同条件下的表现。数据集总共包含10,404行数据,37,536,847个标记和1,156张图像。
提供机构:
parsee-ai
原始信息汇总

finRAG Datasets 概述

数据集详情

  • 许可协议:MIT
  • 任务类别
    • 视觉问答
    • 表格问答
    • 文本检索
    • 问答
  • 数据集大小:10K<n<100K

数据集组成

  • Selection-text:包含相关的利润与损失报表,其中包含我们寻找的收入数字。
  • RAG-text:模拟真实世界的RAG应用,将原始文档分割成块,基于问题进行向量搜索,并向LLMs展示最相关的块。
  • Selection-image:类似于Selection-text,但向模型提供的是包含解决问题所需信息的利润与损失报表的图像。

数据集统计

  • 总行数:10,404
  • 总令牌数:37,536,847
  • 总图像数:1,156
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作