CausalGym
收藏arXiv2024-02-20 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2402.12560v1
下载链接
链接失效反馈官方服务:
资源简介:
用于评估解释性方法在语言模型行为中因果效应能力的基准数据集,扩展自SyntaxGym任务套件。
A benchmark dataset for evaluating the causal effect capabilities of interpretability methods on language model behaviors, extended from the SyntaxGym task suite.
创建时间:
2024-02-20



