FABLE
收藏arXiv2025-05-30 更新2025-11-28 收录
下载链接:
https://hf-mirror.com/datasets/g-nitin/FABLE
下载链接
链接失效反馈官方服务:
资源简介:
FABLE是一个用于评估大型语言模型(LLMs)在程序文本中进行数据流推理理解能力的可扩展基准。它通过结构化的程序文本对LLMs进行评估,采用软件工程中的八个经典数据流分析技术,包括到达定义、活跃表达式、可用表达式、活跃变量分析、区间分析、类型状态分析、污点分析和并发分析。这些分析技术在三个现实世界领域——烹饪食谱、旅行路线和自动化计划中得到应用。基准包含2400个问答对,每个领域-分析组合有100个示例。FABLE旨在通过程序文本全面评估LLMs的数据流推理能力,并提供了关于开发具有更强程序理解能力的模型的见解。
提供机构:
南卡罗来纳大学
创建时间:
2025-05-30



