five

CRoW

收藏
arXiv2023-10-24 更新2024-07-30 收录
下载链接:
https://github.com/mismayil/crow
下载链接
链接失效反馈
官方服务:
资源简介:
一个手动策划的多任务基准,评估模型在六个现实世界NLP任务中应用常识推理的能力。

A manually curated multi-task benchmark that evaluates the ability of models to apply commonsense reasoning across six real-world NLP tasks.
创建时间:
2023-10-24
原始信息汇总

CRoW: Benchmarking Commonsense Reasoning in Real-World Tasks

数据集概述

CRoW是一个多任务基准,用于评估NLP系统在解决需要常识推理能力的现实世界任务中的表现。

数据集构建

CRoW通过多阶段数据收集流程构建,使用现有数据集中的示例,并通过违反常识的扰动进行重写。

数据集内容

CRoW包含六个现实世界NLP任务的评估数据,涵盖物理、时间和社会推理等多个维度的常识知识。

数据集目标

通过CRoW评估NLP系统在不同维度常识知识上的表现,并发现与人类相比存在显著的性能差距,表明在现实世界任务设置中,常识推理尚未解决。

数据集可用性

CRoW的数据集和排行榜对研究社区开放。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作