jfinqa
收藏Hugging Face2026-02-08 更新2026-02-09 收录
下载链接:
https://huggingface.co/datasets/ajtgjmdjp/jfinqa
下载链接
链接失效反馈官方服务:
资源简介:
jfinqa是一个用于评估大型语言模型在日语金融问答任务中表现的数据集,特别关注需要对真实公司披露信息进行数值推理的场景。该数据集包含927个问题,覆盖68家公司和三种会计准则(J-GAAP、IFRS、US-GAAP)。数据集分为三个子任务:数值推理(550个问题)、一致性检查(200个问题)和时间推理(177个问题)。每个数据样本包含多个字段,如公司名称、EDINET代码、会计年度、会计准则、问题文本、答案、程序步骤和相关表格数据等。数据来源于日本金融厅运营的EDINET系统,采用Apache-2.0许可协议发布。该数据集特别考虑了日语特有的财务术语、数字格式和会计准则差异。
创建时间:
2026-02-08
原始信息汇总
jfinqa: Japanese Financial QA Benchmark 数据集概述
数据集基本信息
- 数据集名称: jfinqa: Japanese Financial QA Benchmark
- 许可证: Apache-2.0
- 主要语言: 日语 (ja)
- 标签: benchmark, financial, question-answering, numerical-reasoning, japanese, edinet
- 规模类别: n<1K
- 任务类别: question-answering, table-question-answering
数据集内容与结构
- 总问题数: 927
- 涉及公司数: 68
- 数据划分: 仅包含测试集 (test)
- 平均程序步骤: 2.53
子任务配置
数据集包含三个子任务配置,每个配置仅包含测试集:
all: 包含所有927个问题。numerical_reasoning: 从表格数据计算财务指标,包含550个问题。consistency_checking: 验证报告数字的内部一致性,包含200个问题。temporal_reasoning: 分析跨时期的趋势和变化,包含177个问题。
数据特征 (Features)
每个数据示例包含以下字段:
id: 唯一标识符 (字符串)subtask: 任务类别 (字符串)company_name: 公司名称 (日语,字符串)edinet_code: EDINET公司代码 (字符串)source_doc_id: 源文档ID (字符串)filing_year: 财年 (字符串)accounting_standard: 会计准则 (字符串,如 J-GAAP, IFRS, US-GAAP)scale: 数字单位 (字符串,如 百万円, 億円)pre_text: 表格前的上下文段落 (字符串序列)post_text: 表格后的上下文段落 (字符串序列)table_headers: 表格列标题 (字符串序列)table_rows: 表格数据行 (字符串序列的序列)question: 问题 (日语,字符串)answer: 标准答案 (字符串)program: FinQA兼容的DSL程序 (字符串序列)gold_evidence: 相关表格行的索引 (int64序列)
数据集特点
- 核心任务: 评估大语言模型在需要对真实公司披露信息进行数值推理的日语财务问答任务上的能力。
- 任务复杂性: 要求模型交叉引用文本和表格以执行多步骤计算,不同于专注于分类或简单查找的现有日语财务基准。
- 会计准则覆盖: 涵盖 J-GAAP (528例)、IFRS (360例)、US-GAAP (39例)。
- 日语特定特征:
- 处理 J-GAAP (経常利益)、IFRS 和 US-GAAP 的差异。
- 支持日语数字格式:△ 表示负数、百万円/億円等单位、全角数字。
- 包含日语财务术语:売上高、営業利益、経常利益等。
- 数据格式兼容性: 数据格式与 FinQA 兼容。
数据来源
- 主要来源: 财务数据来自日本金融厅运营的 EDINET。
- 数据许可: EDINET数据依据 Public Data License 1.0 提供。
使用方式
可通过 datasets 库加载:
python
from datasets import load_dataset
ds = load_dataset("ajtgjmdjp/jfinqa", "all", split="test")
或使用专用的 jfinqa 库(安装:pip install jfinqa)进行加载和评估。
相关资源
- 项目仓库: https://github.com/ajtgjmdjp/jfinqa
- 评估库: https://github.com/ajtgjmdjp/jfinqa
- 伴生项目: https://github.com/ajtgjmdjp/edinet-mcp (EDINET XBRL解析器)
- 相关基准: FinQA (英文财务QA基准), EDINET-Bench (Sakana AI的财务分类基准)
引用
bibtex @misc{jfinqa2025, title={jfinqa: Japanese Financial Numerical Reasoning QA Benchmark}, author={ajtgjmdjp}, year={2025}, url={https://github.com/ajtgjmdjp/jfinqa}, }
搜集汇总
数据集介绍

构建方式
在金融文本分析领域,构建高质量基准数据集对于评估模型性能至关重要。jfinqa数据集依托日本金融厅运营的EDINET电子披露系统,从真实企业财务报告中提取结构化信息。数据构建过程涉及筛选68家不同规模企业的公开披露文件,涵盖J-GAAP、IFRS和US-GAAP三种会计准则,通过专业标注将财务表格与上下文文本进行关联,并设计出需要多步数值推理的927个问题。每个样本均包含完整的证据链标注,包括表格行索引和可执行的程序化计算步骤,确保了数据源的权威性与计算逻辑的可追溯性。
特点
该数据集作为日语金融数值推理领域的专业基准,其核心特征体现在多维度专业标注体系。数据集不仅区分数值推理、一致性检验和时序推理三大子任务,更完整保留了日语财务特有的数字格式与专业术语,如使用△符号表示负值、百万円/億円等单位体系。每个问题均配备FinQA兼容的领域特定语言程序,平均计算步骤达2.53步,要求模型在跨表格与文本的异构信息中进行协同推理。这种设计精准捕捉了真实金融分析中所需的复杂计算与语境理解能力,为评估大语言模型的深层推理性能提供了严谨框架。
使用方法
使用该数据集时,研究者可通过HuggingFace数据集库直接加载整体测试集或特定子任务配置。数据集采用标准化JSON格式,每个样本包含完整的元数据字段与计算程序,支持端到端的评估流程。配套的jfinqa评估库提供了便捷的加载与评估接口,用户可通过安装Python包快速实现预测结果与标准答案的比对分析。实际应用中,模型需要解析日语财务表格的特殊格式,理解不同会计准则下的指标差异,并执行程序化定义的多步运算,最终输出精确的数值答案。这种使用方式既保留了学术研究的严谨性,也为工业级金融文本分析系统的开发提供了可靠验证平台。
背景与挑战
背景概述
在金融自然语言处理领域,针对日语文本的复杂推理任务长期缺乏高质量的基准数据集。2025年,研究人员ajtgjmdjp基于日本金融厅运营的EDINET电子披露系统,构建了jfinqa数据集,专门用于评估大语言模型在日语金融文档上的数值推理能力。该数据集的核心研究问题聚焦于如何让模型跨越文本与表格的界限,执行多步骤计算以回答专业财务问题,其涵盖J-GAAP、IFRS和US-GAAP等多种会计准则,显著推动了日语金融智能分析技术的发展。
当前挑战
jfinqa数据集旨在解决金融领域问答中复杂的数值推理挑战,要求模型不仅理解日语财务术语,还需精准解析表格数据、处理带特殊符号的数值格式,并执行跨周期的趋势分析。在构建过程中,挑战主要源于原始EDINET文档的异构性,包括不同会计准则下的指标差异、日语特有的负数表示以及百万円、億円等计量单位的统一转换,这些因素共同增加了高质量标注与程序化表示的难度。
常用场景
经典使用场景
在金融自然语言处理领域,jfinqa数据集被广泛用于评估大型语言模型在日语财务文档中的复杂推理能力。该数据集通过提供真实的公司披露文件,要求模型结合文本描述与表格数据进行多步骤数值计算,例如计算财务指标的百分比变化或验证报表内部一致性。这种设计使得jfinqa成为测试模型跨模态理解与逻辑推理的经典基准,尤其适用于检验模型在日语特定财务术语和会计标准下的表现。
解决学术问题
jfinqa数据集主要解决了金融自然语言处理中数值推理能力评估的缺失问题。传统日语财务基准多集中于分类或简单查找任务,而jfinqa引入了需要多步骤计算、跨文本与表格参考的复杂问题,填补了日语环境下深度财务问答研究的空白。其意义在于推动了模型在真实金融场景中的适用性研究,为会计标准差异、日语数字格式处理等跨语言挑战提供了标准化评估框架,促进了金融人工智能技术的学术进展。
衍生相关工作
jfinqa数据集衍生了多项经典研究工作,其格式兼容英文财务问答基准FinQA,促进了跨语言财务推理模型的比较与迁移。相关项目如edinet-mcp XBRL解析器扩展了数据预处理能力,而Sakana AI的EDINET-Bench则专注于财务分类任务,与jfinqa形成互补。这些工作共同构建了日语金融自然语言处理的生态系统,推动了从数据解析到复杂问答的全链条技术创新。
以上内容由遇见数据集搜集并总结生成



