yilunzhao/KnowledgeMath
收藏KnowledgeMath 数据集概述
数据集描述
KnowledgeMath 是一个专注于金融领域数学推理的知识密集型数据集。该数据集要求模型理解专业的金融术语并解释问题中呈现的表格数据。KnowledgeMath 包含 1200 个 QA 示例,涵盖金融领域的 7 个关键领域。这些示例由金融专家收集,并附有详细的 Python 格式解决方案注释。
数据集信息
所有数据示例被分为两个子集:validation 和 test。
- validation: 200 个示例,用于模型开发、验证或计算资源有限的情况。
- test: 1000 个示例,用于标准评估。测试集的注释解决方案和答案不会公开发布。
数据集下载
可以通过以下命令下载数据集:
python from datasets import load_dataset
dataset = load_dataset("yale-nlp/KnowledgeMath")
打印 validation 集的第一个示例
print(dataset["validation"][0])
打印 test 集的第一个示例
print(dataset["test"][0])
数据格式
数据集以 JSON 格式提供,包含以下属性:
json
{
"question_id": [string] 问题 ID,
"question": [string] 问题文本,
"tables": [list] 与问题相关的 Markdown 格式表格列表,
"python_solution": [string] 金融专家编写的 Python 格式可执行解决方案。代码以清晰、可执行的格式编写,变量命名良好,解释详细,
"ground_truth": [integer] python solution 的执行结果,四舍五入到小数点后三位,
"topic": [string] 问题相关的金融领域,
"knowledge_terms": [list] 回答给定问题所必需的知识库中的知识术语列表。该特性将在论文发表后发布
}
引用
如果在工作中使用 KnowledgeMath 数据集,请引用以下论文:
@misc{zhao2023knowledgemath, title={KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance Domains}, author={Yilun Zhao and Hongjun Liu and Yitao Long and Rui Zhang and Chen Zhao and Arman Cohan}, year={2023}, eprint={2311.09797}, archivePrefix={arXiv}, primaryClass={cs.CL} }




