FinDER

github2024-11-27 更新2024-12-06 收录

下载链接：

https://github.com/cv-lee/FinanceRAG

下载链接

链接失效反馈

官方服务：

资源简介：

处理10-K报告中术语和缩写的识别与处理。

Conduct the identification and processing of terminology and abbreviations within 10-K reports.

创建时间：

2024-11-09

原始信息汇总

FinanceRAG 数据集概述

任务

任务1: 检索给定查询的前10个最相关的语料库。

数据集

FinDER: 处理10-K报告中术语和缩写的识别。
FinQABench: 检测10-K报告中的幻觉，确保事实性。
FinanceBench: 来自10-K报告的真实金融查询。
TATQA: 混合文本和表格的数值推理。
FinQA: 多步骤推理与收益报告（文本 + 表格）。
ConvFinQA: 收益报告上的对话查询。
MultiHiertt: 年度报告中跨层次表格的复杂推理。

数据集结构

bash FinanceRAG/ ├── dataset/ # 数据集存储文件夹

环境要求

Python 3.10+
CUDA 12.2+
OpenAI API key
Kaggle API key & username

开始使用

克隆仓库 bash git clone https://github.com/cv-lee/FinanceRAG.git cd FinanceRAG
创建 .env 文件 bash touch .env
配置 .env 文件 bash

.env

OPENAI_API_KEY=YOUR_OPENAI_API_KEY KAGGLE_USERNAME=YOUR_KAGGLE_USERNAME KAGGLE_KEY=YOUR_KAGGLE_KEY

执行完整管道 bash bash run.sh

故障排除

Flash Attention 安装问题
- 在 run.sh 脚本中取消注释 pip uninstall -y transformer-engine。
- 如果问题持续，参考 Flash Attention GitHub 仓库。
检索速度慢
- 可以使用 --batch_size 参数调整批量大小。

搜集汇总

数据集介绍

构建方式

FinDER数据集的构建聚焦于金融领域的专业术语和缩写处理，特别针对10-K报告中的复杂文本进行优化。通过高效的查询扩展和语料库精炼技术，该数据集在预检索阶段显著提升了检索过程的效率。此外，多阶段重排序机制的引入，利用多个重排序模型，进一步提高了检索文档的质量。

特点

FinDER数据集的显著特点在于其针对金融领域专业术语和缩写的处理能力，这使得其在解析复杂金融文档时表现卓越。此外，数据集结合了多阶段重排序技术，确保了检索结果的高准确性。尽管长上下文管理功能尚未完全实现，但其预设的架构显示了未来在处理大规模金融数据时的潜力。

使用方法

使用FinDER数据集时，首先需克隆GitHub仓库并配置环境变量文件。通过执行run.sh脚本，可以启动完整的处理流程，包括数据集的下载、准备及检索任务。建议使用Google Colab Pro+（A100）以确保最佳性能。最终的检索结果将保存于results/final.csv文件中，便于后续分析和应用。

背景与挑战

背景概述

FinDER数据集聚焦于金融领域的专业术语和缩略语处理，特别针对10-K报告中的相关问题。该数据集由Joohyun Lee和Minji Roh等研究人员创建，旨在通过高效的查询扩展和语料库优化技术，提升金融文本的检索与生成质量。FinDER的开发背景源于大型语言模型（LLMs）在金融领域的广泛应用，尤其是在处理复杂的财务报表和披露文件时，这些模型展现了显著的潜力。通过参与ACM-ICAIF '24 FinanceRAG竞赛，FinDER不仅展示了其在金融文本处理中的独特优势，还为相关领域的研究提供了宝贵的资源。

当前挑战

FinDER数据集在构建和应用过程中面临多项挑战。首先，金融领域的专业术语和缩略语处理需要高度精确，以确保检索和生成结果的准确性。其次，数据集的构建涉及复杂的语料库优化和查询扩展技术，这些技术在实际应用中需不断调整以适应不同的金融文本环境。此外，处理长文本和数值数据时，如何有效管理上下文大小，避免信息丢失或混淆，也是FinDER面临的重要挑战。最后，尽管FinDER在提升检索准确性方面取得了显著进展，但其在大规模应用中的效率和稳定性仍需进一步验证和优化。

常用场景

经典使用场景

FinDER数据集在金融领域中被广泛应用于处理10-K报告中的专业术语和缩写。其经典使用场景包括通过高效的查询扩展和语料库优化技术，提升检索过程的准确性和效率。具体而言，该数据集支持在预检索阶段进行术语和缩写的处理，从而在多阶段重排序过程中提高检索文档的质量。此外，FinDER还涉及长上下文管理，尽管该功能尚未完全实现，但已展现出在处理复杂金融文本生成任务中的潜力。

解决学术问题

FinDER数据集解决了金融文本分析中的一个关键学术问题，即如何有效处理和理解10-K报告中包含的大量专业术语和缩写。通过提供一个专门的语料库和查询扩展技术，该数据集显著提升了金融文本检索和生成的准确性，从而为学术界提供了一个强有力的工具来研究复杂金融文档的自动处理和分析。这不仅推动了金融领域自然语言处理技术的发展，也为相关研究提供了宝贵的数据资源。

衍生相关工作

基于FinDER数据集，许多相关研究工作得以展开，特别是在金融领域的自然语言处理和信息检索方面。例如，有研究者利用该数据集开发了新的查询扩展算法，以进一步提升检索效果。此外，FinDER还激发了对长上下文管理技术的研究，旨在处理金融文本生成中的复杂上下文问题。这些衍生工作不仅丰富了金融文本处理的技术手段，也为后续研究提供了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集