five

dannashao/sem2012forNegbert

收藏
Hugging Face2024-05-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/dannashao/sem2012forNegbert
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: int64 - name: negation_scope_tags sequence: int64 - name: tokens sequence: string splits: - name: train num_bytes: 1151278 num_examples: 3779 - name: dev num_bytes: 238623 num_examples: 815 - name: test num_bytes: 330388 num_examples: 1116 download_size: 335036 dataset_size: 1720289 configs: - config_name: default data_files: - split: train path: data/train-* - split: dev path: data/dev-* - split: test path: data/test-* license: cc0-1.0 task_categories: - token-classification language: - en tags: - CD-SCO --- This dataset is converted from [SEM Shared Task 2012: Resolving the Scope and Focus of Negation](https://www.clips.ua.ac.be/sem2012-st-neg/data.html), [CD-SCO] dataset. The creation of this data follows the approach of the Augment method described in [NegBERT (Khandelwal, et al. 2020)](http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.704.pdf). That is, adding a special token ([NEG]) immediately before the predicate: > This is [NEG] not a sentence. Note that **the special token and the predicate is considered a whole**. That is, the actual sentence is like > 'This' 'is' **'[NEG] not'** 'a' 'sentence' '.'
提供机构:
dannashao
原始信息汇总

数据集概述

数据集特征

  • id: 整数类型 (int64)
  • negation_scope_tags: 序列整数类型 (sequence: int64)
  • tokens: 序列字符串类型 (sequence: string)

数据集分割

  • 训练集 (train): 3779个样本,占用1151278字节
  • 验证集 (dev): 815个样本,占用238623字节
  • 测试集 (test): 1116个样本,占用330388字节

数据集大小

  • 下载大小: 335036字节
  • 数据集总大小: 1720289字节

配置

  • 默认配置 (default):
    • 训练集路径: data/train-*
    • 验证集路径: data/dev-*
    • 测试集路径: data/test-*

许可证

  • cc0-1.0

任务类别

  • token-classification

语言

  • 英语 (en)

标签

  • CD-SCO
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,否定句的语义解析是细粒度文本理解的关键挑战之一。该数据集源自SEM Shared Task 2012中的CD-SCO子任务,旨在解决否定范围与焦点的识别问题。其构建方式遵循NegBERT论文中提出的Augment方法:在否定谓词前插入一个特殊标记[NEG],并将该标记与谓词视作一个整体单元进行序列标注。例如,原句“This is not a sentence”被转化为“This is [NEG] not a sentence”,其中[NEG]与“not”共同构成一个标记,从而在分词层面显式编码否定信号,为后续的序列标注任务提供清晰的边界信息。
使用方法
该数据集的使用方法高度契合序列标注任务的标准化流程。用户可直接通过HuggingFace Datasets库加载预划分的train、dev和test分片,其中每个样本包含id、tokens序列以及negation_scope_tags标签序列。在模型输入阶段,需注意将[NEG]与后续谓词合并为一个token,以保持与数据集构建策略的一致性。推荐将该数据集作为NegBERT等模型的训练语料,也可将其融入基于Transformer架构的序列标注管线,用于评估模型在否定范围识别任务上的性能,如精确率、召回率和F1分数等指标。
背景与挑战
背景概述
在自然语言处理领域,否定表达的范围与焦点解析一直是语义理解中的关键难题,尤其在医疗文本、情感分析等对否定信息敏感的任务中,准确识别否定作用域对提升模型性能至关重要。dannashao/sem2012forNegbert数据集源于SEM 2012共享任务中关于否定范围与焦点解析的挑战,由研究者基于CD-SCO语料库转换而来,旨在为否定检测任务提供标准化评测基准。该数据集创建于2020年前后,其设计紧密围绕NegBERT模型提出的增强方法,通过在谓词前插入特殊标记[NEG]来显式标记否定触发词,从而将谓词与标记视为整体进行序列标注。这一创新性构建方式不仅继承了原始SEM 2012任务的数据结构,更通过结构化标注简化了否定范围的识别过程,为后续否定解析研究提供了可靠的数据支撑,对推动否定语义理解技术的发展具有重要影响力。
当前挑战
数据集面临的核心挑战首先体现在领域问题的复杂性上,否定范围解析需要模型精准区分否定词的作用边界,避免对非否定区域的误判,同时应对长距离依赖和嵌套否定结构带来的语义模糊性。构建过程中亦存在显著困难,原始SEM 2012数据需经过精细的预处理以适配NegBERT方法,包括在谓词前插入[NEG]标记并维持词序一致性,这一操作要求严格保证标注与原始句子结构的对齐,防止引入噪声。此外,数据集规模相对有限,训练集仅含3779个样本,可能影响模型在复杂否定场景下的泛化能力;多语言扩展性不足也是潜在挑战,当前仅支持英文,限制了其在跨语言否定解析任务中的应用广度。
常用场景
经典使用场景
在自然语言处理领域,否定语义的消解是语义理解中的核心挑战之一。dannashao/sem2012forNegbert数据集专为序列标注任务而设计,其经典使用场景在于训练和评估模型对否定范围(negation scope)的精准识别。该数据集源自SEM 2012共享任务中的CD-SCO语料,并借鉴了NegBERT的增强方法,通过在否定谓词前插入特殊标记[NEG],将谓词与标记视为整体,从而强化模型对否定结构的感知能力。研究者常利用该数据集构建基于Transformer架构的否定检测模型,在词级别上预测每个token是否属于否定范围,进而实现细粒度的语义边界划分。这一场景为否定语义解析提供了标准化基准,推动了序列标注任务在情感分析、信息抽取等下游应用中的性能提升。
解决学术问题
该数据集致力于解决否定语义范围模糊这一长期困扰计算语言学界的学术难题。传统方法往往难以区分否定词的作用边界,导致模型在复杂句式(如嵌入从句、多否定词共现)中误判。dannashao/sem2012forNegbert通过明确的标注规范和增强策略,为研究者提供了高质量的训练与测试基准,使得系统能够系统性地学习否定范围与焦点之间的映射关系。其核心意义在于揭示了否定谓词作为语义锚点的关键作用,从而促进了对否定结构形式化表达的理解。该数据集的引入显著提升了否定检测任务的F1分数,为后续跨语言否定解析、医学文本中否定诊断的识别等研究奠定了方法论基础,推动了语义理解从浅层匹配向深层推理的演进。
实际应用
在实际应用中,该数据集支撑的否定检测技术被广泛部署于多个垂直领域。在医疗健康场景中,电子病历常包含大量否定表述(如“无疼痛”“未见异常”),利用该数据集训练的模型能够准确区分阴性诊断与阳性发现,避免因否定范围误判导致的临床决策失误。在金融舆情分析中,模型可精准识别“企业未出现亏损”等陈述中的否定语义,从而修正情感倾向的误判。此外,智能客服系统借助否定检测能力,能正确理解用户“不需要退款”等指令,提升对话交互的鲁棒性。该数据集还推动了法律文本审核自动化,确保合同条款中否定性条件的无歧义解读,显著降低了人工复核成本。
数据集最近研究
最新研究方向
在自然语言处理领域中,否定表达的范围与焦点解析一直是语义理解的核心挑战之一。dannashao/sem2012forNegBERT数据集源自SEM 2012共享任务中的CD-SCO语料,近期研究围绕该数据集展开的前沿方向聚焦于借助预训练语言模型提升否定作用域的识别精度。通过引入特殊标记[NEG]与谓语词绑定作为整体输入,NegBERT等模型显著增强了上下文感知能力,从而更准确地界定否定所涵盖的词汇范围。这一方法不仅推动了医疗文本、情感分析等对否定敏感的应用场景发展,也为构建更鲁棒的语义理解系统提供了关键基准,其影响体现在对语言歧义性处理范式的革新上。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作