CRoW

arXiv2023-10-24 更新2024-07-30 收录

下载链接：

https://github.com/mismayil/crow

下载链接

链接失效反馈

官方服务：

资源简介：

一个手动策划的多任务基准，评估模型在六个现实世界NLP任务中应用常识推理的能力。

A manually curated multi-task benchmark that evaluates the ability of models to apply commonsense reasoning across six real-world NLP tasks.

创建时间：

2023-10-24

原始信息汇总

CRoW: Benchmarking Commonsense Reasoning in Real-World Tasks

CRoW是一个多任务基准，用于评估NLP系统在解决需要常识推理能力的现实世界任务中的表现。

CRoW通过多阶段数据收集流程构建，使用现有数据集中的示例，并通过违反常识的扰动进行重写。

CRoW包含六个现实世界NLP任务的评估数据，涵盖物理、时间和社会推理等多个维度的常识知识。

通过CRoW评估NLP系统在不同维度常识知识上的表现，并发现与人类相比存在显著的性能差距，表明在现实世界任务设置中，常识推理尚未解决。

CRoW的数据集和排行榜对研究社区开放。

5,000+

优质数据集

54 个

任务类型

进入经典数据集