five

WinoGrande

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/WinoGrande
下载链接
链接失效反馈
官方服务:
资源简介:
“Winograd Schema Challenge (WSC)(Levesque、Davis 和 Morgenstern 2011 年)是常识推理的基准,是一组 273 个专家制作的代词解析问题,最初设计用于依赖选择的统计模型无法解决偏好或单词关联。然而,神经语言模型的最新进展已经在 WSC 的变体上达到了大约 90% 的准确率。这就提出了一个重要的问题,这些模型是否真正获得了强大的常识能力,或者它们是否依赖于数据集中的虚假偏见导致对机器常识的真实能力的高估。为了研究这个问题,我们引入了 WinoGrande,这是一个 44k 问题的大规模数据集,受原始 WSC 设计的启发,但经过调整以提高数据集的规模和硬度. 数据集构建的关键步骤包括 (1) 精心设计的众包程序,然后是 (2) 系统偏差减少n 使用一种新颖的 AfLite 算法,该算法将人类可检测的词关联推广到机器可检测的嵌入关联。 WinoGrande 上最先进的方法达到 59.4 – 79.1%,比人类 94.0% 的表现低 15 – 35%(绝对),具体取决于允许的训练数据量(2% – 100%分别)。此外,我们在五个相关基准上建立了最新的最新结果——WSC (90.1%)、DPR (93.1%)、COPA (90.6%)、KnowRef (85.6%) 和 Winogender (97.1%)。这些结果具有双重含义:一方面,它们证明了 WinoGrande 在用作迁移学习资源时的有效性。另一方面,他们提出了一个担忧,即我们可能高估了所有这些基准测试中机器常识的真实能力。我们强调在现有和未来的基准测试中减少算法偏差以减轻这种高估的重要性。”
提供机构:
OpenDataLab
创建时间:
2022-04-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作