CRoW
收藏arXiv2023-10-24 更新2024-07-30 收录
下载链接:
https://github.com/mismayil/crow
下载链接
链接失效反馈官方服务:
资源简介:
一个手动策划的多任务基准,评估模型在六个现实世界NLP任务中应用常识推理的能力。
A manually curated multi-task benchmark that evaluates the ability of models to apply commonsense reasoning across six real-world NLP tasks.
创建时间:
2023-10-24
原始信息汇总
CRoW: Benchmarking Commonsense Reasoning in Real-World Tasks
数据集概述
CRoW是一个多任务基准,用于评估NLP系统在解决需要常识推理能力的现实世界任务中的表现。
数据集构建
CRoW通过多阶段数据收集流程构建,使用现有数据集中的示例,并通过违反常识的扰动进行重写。
数据集内容
CRoW包含六个现实世界NLP任务的评估数据,涵盖物理、时间和社会推理等多个维度的常识知识。
数据集目标
通过CRoW评估NLP系统在不同维度常识知识上的表现,并发现与人类相比存在显著的性能差距,表明在现实世界任务设置中,常识推理尚未解决。
数据集可用性
CRoW的数据集和排行榜对研究社区开放。



