five

yilunzhao/KnowledgeMath

收藏
Hugging Face2024-07-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yilunzhao/KnowledgeMath
下载链接
链接失效反馈
官方服务:
资源简介:
KnowledgeMath是一个专注于金融领域数学推理的知识密集型数据集。它要求模型理解专业金融术语并解释问题中呈现的表格数据。数据集包含1200个问答示例,涵盖金融领域的7个关键领域,这些示例由金融专家收集,并附有详细的Python格式解决方案注释。数据集分为验证集和测试集,分别包含200和1000个示例。数据集以json格式提供,包含问题ID、问题文本、相关表格、Python解决方案、执行结果、相关金融领域和必要的知识术语等属性。

KnowledgeMath是一个专注于金融领域数学推理的知识密集型数据集。它要求模型理解专业金融术语并解释问题中呈现的表格数据。数据集包含1200个问答示例,涵盖金融领域的7个关键领域,这些示例由金融专家收集,并附有详细的Python格式解决方案注释。数据集分为验证集和测试集,分别包含200和1000个示例。数据集以json格式提供,包含问题ID、问题文本、相关表格、Python解决方案、执行结果、相关金融领域和必要的知识术语等属性。
提供机构:
yilunzhao
原始信息汇总

KnowledgeMath 数据集概述

数据集描述

KnowledgeMath 是一个专注于金融领域数学推理的知识密集型数据集。该数据集要求模型理解专业的金融术语并解释问题中呈现的表格数据。KnowledgeMath 包含 1200 个 QA 示例,涵盖金融领域的 7 个关键领域。这些示例由金融专家收集,并附有详细的 Python 格式解决方案注释。

数据集信息

所有数据示例被分为两个子集:validationtest

  • validation: 200 个示例,用于模型开发、验证或计算资源有限的情况。
  • test: 1000 个示例,用于标准评估。测试集的注释解决方案和答案不会公开发布。

数据集下载

可以通过以下命令下载数据集:

python from datasets import load_dataset

dataset = load_dataset("yale-nlp/KnowledgeMath")

打印 validation 集的第一个示例

print(dataset["validation"][0])

打印 test 集的第一个示例

print(dataset["test"][0])

数据格式

数据集以 JSON 格式提供,包含以下属性:

json { "question_id": [string] 问题 ID, "question": [string] 问题文本, "tables": [list] 与问题相关的 Markdown 格式表格列表, "python_solution": [string] 金融专家编写的 Python 格式可执行解决方案。代码以清晰、可执行的格式编写,变量命名良好,解释详细, "ground_truth": [integer] python solution 的执行结果,四舍五入到小数点后三位, "topic": [string] 问题相关的金融领域, "knowledge_terms": [list] 回答给定问题所必需的知识库中的知识术语列表。该特性将在论文发表后发布 }

引用

如果在工作中使用 KnowledgeMath 数据集,请引用以下论文:

@misc{zhao2023knowledgemath, title={KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance Domains}, author={Yilun Zhao and Hongjun Liu and Yitao Long and Rui Zhang and Chen Zhao and Arman Cohan}, year={2023}, eprint={2311.09797}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
在金融领域,数学推理是一项至关重要的技能。**KnowledgeMath**数据集正是基于此背景构建而成,旨在评估模型在理解金融专业术语及解释表格数据方面的能力。该数据集汇聚了来自金融专家的1200个问答实例,覆盖金融领域的7个关键主题,并提供了详细的Python格式解决方案注释。
特点
**KnowledgeMath**数据集的特点在于其知识密集型设计,要求模型不仅要理解金融领域的问题,还要能够处理和解释与问题相关的表格数据。数据集分为验证集和测试集两种,验证集包含200个示例,供模型开发或计算资源有限的情况使用;而测试集则包含1000个示例,用于标准的模型评估。数据以JSON格式提供,包含了问题ID、问题文本、相关表格、Python格式解决方案、执行结果、问题相关金融领域以及必要的知识术语列表等属性。
使用方法
使用**KnowledgeMath**数据集,首先需要通过`load_dataset`函数从`datasets`库中导入数据集。之后,可以通过访问`validation`和`test`键来获取验证集和测试集的示例。每个示例都包含了丰富的信息,如问题文本、相关表格、解决方案等,可供研究和评估模型在金融数学推理任务上的表现。对于模型的自动化评估,可以参考GitHub仓库中的相关指南。
背景与挑战
背景概述
在金融领域,数学推理能力对于理解复杂数据和术语至关重要。**KnowledgeMath** 数据集应运而生,旨在针对金融领域的知识密集型数学推理问题进行深入研究。该数据集由耶鲁大学自然语言处理团队于2023年创建,汇集了来自金融专家的1200个问答示例,跨越七个关键金融领域,并以Python格式的详细解决方案注释为特色,为研究界提供了宝贵的资源。
当前挑战
该数据集面临的挑战主要在于:1)如何使模型准确理解金融专业术语和表格数据,这要求模型具备高度的专业知识和数据解析能力;2)构建过程中,数据集的收集和解决方案的注释需要金融专家的深度参与,这带来了时间和成本上的挑战;3)对于测试集,未公开的解决方案和答案为模型的评估带来了额外的难度。
常用场景
经典使用场景
在金融数学领域的推理研究中,**KnowledgeMath**数据集提供了一个专业且具有挑战性的基准。该数据集强制模型理解和运用金融术语,并解读问题中呈现的表格数据,从而在数学推理任务中展现其性能。经典使用场景包括构建和评估金融数学问题解决模型,如自动化财务报告分析系统。
解决学术问题
**KnowledgeMath**数据集解决了金融领域中知识密集型数学问题自动解答的难题。它不仅要求模型具备数学计算能力,还需理解金融领域的专业知识,这对于传统数学问题解决模型是一个重大挑战,为学术研究提供了新的研究方向和评测标准。
衍生相关工作
基于**KnowledgeMath**数据集,研究者们已经开展了一系列相关工作,包括但不限于金融数学问题解决模型的研究、知识图谱在金融推理中的应用,以及金融领域自然语言处理的创新技术。这些研究进一步扩展了数据集的应用范围,推动了金融科技的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作