CREAK
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CREAK
下载链接
链接失效反馈官方服务:
资源简介:
我们介绍了 CREAK,一个关于实体知识的常识推理测试平台,将关于实体的事实检查(哈利波特是一个巫师,擅长骑扫帚)与常识推理(如果你擅长一项技能,你可以教别人如何去做吧)。我们的数据集包含 13k 个人类撰写的关于实体的真实或虚假的英语声明,以及一个小的对比集。群众工作者可以很容易地提出这些陈述,并且人类在数据集上的表现很高(高 90 年代);我们认为,预训练的语言模型(LMs)应该能够融合实体知识和常识推理来在这里做得很好。在我们的实验中,我们专注于闭卷设置,并观察到在现有事实验证基准上微调的基线模型与 CREAK 中的推理类型相冲突。在 CREAK 上训练模型可大幅提高准确性,但仍达不到人类的表现。我们的基准测试提供了对自然语言理解模型的独特探索,测试了它检索事实的能力(例如,谁在芝加哥大学任教?)和未陈述的常识知识(例如,管家不会对客人大喊大叫)。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
CREAK是一个用于评估模型结合实体知识与常识推理能力的测试平台,包含约1.3万条人工撰写的真实或虚假英语声明。该数据集旨在探索自然语言理解模型在事实检索和常识推理方面的表现。
以上内容由遇见数据集搜集并总结生成



