INK-USC/numer_sense
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/INK-USC/numer_sense
下载链接
链接失效反馈官方服务:
资源简介:
NumerSense是一个新的数值常识推理探测任务,包含3,145个掩码词预测探针的诊断数据集。其核心思想是从常识语料库中挖掘包含0到10之间数字的句子,并将这些数字掩码,评估语言模型是否能正确预测掩码值。数据集支持槽填充任务,特别是作为数值常识的评估。数据集包含训练集、核心测试集和扩展测试集,数据字段包括句子和目标值。数据集来源于Open Mind Common Sense语料库,经过手动评估和掩码处理。
NumerSense is a novel diagnostic dataset for numerical commonsense reasoning, containing 3,145 masked-word prediction probes. The core idea of this dataset is to extract sentences with integers ranging from 0 to 10 from common sense corpora, mask these numerical values, and assess whether language models can accurately predict the masked values. This dataset supports slot-filling tasks, particularly acting as an evaluation benchmark for numerical commonsense reasoning. It consists of a training set, a core test set, and an extended test set, with its data fields including sentences and target values. The dataset is derived from the Open Mind Common Sense corpus and has undergone manual evaluation and masking processing.
提供机构:
INK-USC
原始信息汇总
数据集概述
名称: NumerSense
语言: 英语
许可证: MIT
多语言性: 单语
大小: 10K<n<100K
来源数据集: 扩展自Open Mind Common Sense
任务类别: 文本生成, 填充掩码
任务ID: 槽填充
数据集结构
特征:
- sentence: 字符串类型,包含一个被掩码的数字(0-10)。
- target: 字符串类型,训练集中的目标值。
数据分割:
- train: 10444个样本,825865字节。
- test_core: 1132个样本,62652字节。
- test_all: 3146个样本,184180字节。
数据集创建
注释创建者: 专家生成
语言创建者: 众包
初始数据收集和标准化: 从Open Mind Common Sense数据集中筛选包含0-12数字的句子,并手动评估和修正。
注释过程: 目标值从掩码句子中自动提取。
注释者: 两轮由研究生进行的数据筛选和检查。
数据使用考虑
社会影响: 评估模型是否能关联数字与现实世界概念,但需注意源数据集可能存在的偏见。
偏见讨论: 数据集来自众包常识知识库,可能存在事实覆盖率低和特定事实偏见的问题。
附加信息
数据集收集者: Bill Yuchen Lin, Seyeon Lee, Rahul Khanna, Xiang Ren
许可证信息: MIT许可证
引用信息:
@inproceedings{lin2020numersense, title={Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-trained Language Models}, author={Bill Yuchen Lin and Seyeon Lee and Rahul Khanna and Xiang Ren}, booktitle={Proceedings of EMNLP}, year={2020}, note={to appear} }
搜集汇总
数据集介绍

构建方式
NumerSense数据集的构建主要基于对Open Mind Common Sense语料库的扩展,通过筛选包含0-12数字的句子,并进行人工评估和校对以确保障碍句子的准确性及常识知识的表达。随后,将这些句子中的数字进行遮掩处理,形成训练数据,并为训练集中的每个实例提供了真实的目标值,即被遮掩的数字。
特点
该数据集的特点在于,它是专门为探测预训练语言模型对数值常识知识的掌握而设计的。数据集包含三个预定义的数据划分:超过10K个带标签的训练实例,一个包含1,132个实例的核心测试集,以及一个包含3,146个实例的扩展测试集,后者还包括了对抗性实例。所有句子均为英文,且测试集中不提供真实的目标值。
使用方法
使用NumerSense数据集时,研究者可以将其作为评估工具来检测模型在数值常识推理方面的性能。数据集提供了训练集和测试集,训练集包含遮掩数字的句子及其对应的目标值,而测试集则不含目标值,用于评估模型的预测能力。此外,数据集的官方网站还提供了包括GPT-2、RoBERTa、BERT在内的模型性能排行榜,供研究者参考。
背景与挑战
背景概述
NumerSense数据集是由南加州大学的计算机科学研究人员Bill Yuchen Lin、Seyeon Lee、Rahul Khanna和Xiang Ren于2020年创建的,旨在研究预训练语言模型是否掌握了数值常识知识,即对实体间数值关系的理解。该数据集是基于Open Mind Common Sense语料库的扩展,通过挖掘包含0-12之间数字的句子,并对其进行人工评估和错误校验,进而将数值进行遮蔽处理,形成了包含10444个训练样本和3146个测试样本的诊断数据集。该数据集对数值常识推理领域的探索具有显著的研究价值,为评估语言模型在这方面的能力提供了基准。
当前挑战
该数据集在构建过程中面临的挑战主要包括:如何确保选取的句子能够有效反映数值常识知识;如何处理和校准来源于众包数据集可能存在的偏差和错误;以及如何在测试集中构造对抗性样本来进一步评估模型的数值推理能力。此外,该数据集在解决数值常识推理问题的挑战在于,它要求模型不仅要理解数字的基本概念,还要理解数字在具体语境中的含义和实体间的数值关系。
常用场景
经典使用场景
在自然语言处理领域,INK-USC/numer_sense数据集的经典使用场景是作为数值常识推理探测任务的评价基准,它通过在从常识语料库中挖掘的句子中遮蔽0-10之间的数字,检验预训练语言模型是否能够正确预测被遮蔽的数值,从而评估模型对数值常识知识的掌握程度。
实际应用
在实践应用中,INK-USC/numer_sense数据集可以被用于改进语言模型在处理涉及数字的文本理解任务时的性能,如问答系统、信息抽取和自动摘要等,提升模型在实际场景中的准确性和可靠性。
衍生相关工作
基于INK-USC/numer_sense数据集的研究衍生出了一系列相关工作,包括对模型数值推理能力的深入分析、不同模型架构在数值常识任务上的表现对比,以及如何通过增强训练数据来提升模型在数值推理任务上的表现等研究。
以上内容由遇见数据集搜集并总结生成



