EDINET-Bench

github2025-06-09 更新2025-06-10 收录

下载链接：

https://github.com/SakanaAI/EDINET-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

EDINET-Bench是一个日语金融基准测试，旨在评估LLMs在具有挑战性的金融任务上的性能，包括会计欺诈检测、收益预测和行业预测。该数据集利用EDINET平台构建，该平台由日本金融厅（FSA）管理，提供披露文件（如证券报告）的访问。

EDINET-Bench is a Japanese financial benchmark dataset designed to evaluate the performance of Large Language Models (LLMs) on challenging financial tasks, including accounting fraud detection, earnings prediction, and industry prediction. This dataset is constructed using the EDINET platform, which is managed by the Japanese Financial Services Agency (FSA) and provides access to disclosure documents such as securities reports.

创建时间：

2025-06-02

原始信息汇总

EDINET-Bench数据集概述

数据集简介

EDINET-Bench是一个日本金融基准测试数据集，用于评估大型语言模型（LLMs）在复杂金融任务上的性能。
主要任务包括：会计欺诈检测、收益预测和行业预测。
数据来源：日本金融厅（FSA）管理的EDINET平台，包含证券报告等披露文件。

数据集内容

会计欺诈检测：基于资产负债表（BS）、现金流量表（CF）、损益表（PL）和年报摘要项预测报告是否欺诈。
收益预测：使用逻辑模型作为基线进行预测。
行业预测：根据公司当前年报预测其行业类型（如银行业）。

数据集获取

数据集地址：https://huggingface.co/datasets/SakanaAI/EDINET-Bench
数据集构建代码：https://github.com/SakanaAI/edinet2dataset

评估方法

会计欺诈检测与收益预测
- 使用Claude 3.5 Sonnet模型进行预测
- 使用逻辑模型作为基线
- 生成模型排行榜
行业预测
- 使用Claude 3.5 Sonnet模型进行预测
- 生成模型排行榜

引用信息

bibtex @misc{sugiura2025edinet, author = {Issa Sugiura and Takashi Ishida and Taro Makino and Chieko Tazuke and Takanori Nakagawa and Kosuke Nakago and David Ha}, title = {{EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements}}, institution = {Sakana AI}, year = {2025}, month = {June}, url = {https://pub.sakana.ai/edinet-bench} }

相关资源

论文：https://pub.sakana.ai/edinet-bench
博客：https://sakana.ai/edinet-bench/

搜集汇总

数据集介绍

构建方式

EDINET-Bench数据集依托日本金融厅（FSA）管理的EDINET平台构建，该平台收录了包括证券报告在内的各类披露文件。研究团队通过精心设计的流程，从这些官方披露文档中提取关键财务数据，构建了涵盖会计欺诈检测、盈利预测和行业分类等核心金融任务的基准测试。数据集构建过程中特别注重数据的代表性和时效性，确保所选样本能够全面反映日本金融市场的实际情况。

特点

作为专注于日本金融领域的专业基准，EDINET-Bench以其独特的任务设计脱颖而出。数据集不仅包含传统的财务报表分析项目，更创新性地整合了会计欺诈检测等具有挑战性的金融实务场景。其任务设置充分考虑了实际金融工作中的复杂决策过程，特别是对资产负债表、现金流量表和利润表等核心财务文档的多维度分析要求，为评估大语言模型在专业金融领域的表现提供了可靠标准。

使用方法

该数据集提供了完整的评估框架，用户可通过命令行接口调用不同模型进行多任务测试。在会计欺诈检测任务中，研究者可基于年度报告中的财务摘要和三大报表进行分析；盈利预测任务则提供了逻辑回归基准模型作为参照。数据集配套的排行榜生成工具能直观展示各模型表现，支持研究者快速比较不同算法在金融专业任务中的性能差异。评估过程需要预先配置相应大语言模型的API密钥，确保测试环境的一致性。

背景与挑战

背景概述

EDINET-Bench是由日本Sakana AI研究机构于2025年推出的日文金融领域基准测试数据集，旨在评估大型语言模型在复杂金融任务中的表现。该数据集基于日本金融厅（FSA）管理的EDINET平台构建，整合了包括证券报告在内的各类披露文件。核心研究聚焦于会计欺诈检测、盈利预测和行业分类三大关键金融问题，为金融科技领域提供了首个专注于日语文本分析的标准化评估框架。其创新性在于将传统金融分析与自然语言处理技术相结合，填补了非英语金融文本挖掘的研究空白。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，金融文本特有的专业术语密度高、数值与文本混合表达复杂，要求模型同时具备数值推理和语义理解能力；行业预测任务中企业业务描述的模糊性增加了分类难度。在构建过程中，处理EDINET原始文档的非结构化数据需要设计复杂的解析流程，平衡信息披露的完整性与隐私保护要求，同时确保标注过程中金融专家与NLP研究者协作的一致性。跨年度财务报告的时间动态性也为数据标准化带来显著挑战。

常用场景

经典使用场景

在金融科技领域，EDINET-Bench数据集为评估大型语言模型在复杂金融任务中的表现提供了标准化基准。该数据集广泛应用于会计欺诈检测、盈利预测和行业分类等场景，通过分析日本金融厅EDINET平台披露的财务报表数据，研究人员能够系统性地测试模型对金融文本的理解能力和推理精度。特别是在处理日语财务文档时，该数据集填补了非英语金融文本评估工具的空白。

衍生相关工作

基于EDINET-Bench的评估框架，学界已衍生出多项创新研究。东京大学团队开发了针对日语财务术语的专用嵌入模型FinBERT-jp，斯坦福研究院提出了融合表格与文本的多模态欺诈检测架构。该数据集还启发了韩国金融监督院构建类似的K-FINBench，形成了东亚地区金融AI评估的协同发展态势。

数据集最近研究