five

dragonscale-ai/kniv-corpus-en

收藏
Hugging Face2026-04-26 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/dragonscale-ai/kniv-corpus-en
下载链接
链接失效反馈
官方服务:
资源简介:
kniv-corpus-en 是一个多领域英语NLP语料库,包含四个注释层:命名实体识别(18种类型)、词性标注(17种UPOS标签)、依存句法分析和对话行为分类(9种类型)。所有数据均采用商业许可(兼容CC BY-SA 4.0)。该语料库旨在训练支持uniko认知记忆系统的多任务NLP模型。数据收集自17个开放来源,涵盖6个领域,经过预处理、标注、验证和黄金过滤,最终形成高质量的训练数据。

A multi-domain English NLP corpus with four annotation layers: Named Entity Recognition (18 types), POS tagging (17 UPOS tags), dependency parsing, and dialog act classification (9 types). All data is commercially licensed (CC BY-SA 4.0 compatible). Built for training multi-task NLP models that power the uniko cognitive memory system. The corpus was collected from 17 open sources across 6 domains, preprocessed, annotated, validated, and gold-filtered to produce high-quality training data.
提供机构:
dragonscale-ai
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集从商业、技术、对话、百科、新闻和叙事六大领域的17个开放来源中采集文本,总计涵盖约65.7万条句子。在预处理阶段,对非对话文本采用spaCy进行句子分割,而对话领域则保留原始话轮作为独立单元,并附加上下文信息。随后通过spaCy的transformer模型一次性完成命名实体识别、词性标注和依存句法分析的三层标注,并利用GPT-5.4-nano进行验证与修正。最后,采用Qwen3-8B模型对每一条训练数据进行逐一验证,依据NER、对话行为和词性三项检查结果,仅保留全部通过的句子,最终得到约23.8万条高质量黄金数据。
特点
该数据集以四大标注层协同交织为其核心特色:包含18种实体类型的命名实体识别、17种通用词性标签、基于rel-pos方案编码的依存句法(约1411种标签),以及9类面向认知记忆系统的对话行为标签。黄金过滤机制通过LLM逐句验证,使得训练数据经过严格筛选,保留了仅45.2%的高置信度样本。此外,数据还提供了领域平衡的子样本和针对DeBERTa-v3-large预处理的训练就绪JSON文件,支持多任务学习场景。
使用方法
用户可通过HuggingFace的datasets库直接加载完整数据集,或从仓库中的corpus/gold目录读取经LLM验证的黄金数据。对于模型训练,推荐使用prepared目录下的领域平衡子样本与标签词汇表。训练脚本集成于kniv-nlp-models代码库中,用户可运行prepare_data.py准备数据,随后执行train.py启动多任务训练。数据集以Parquet和CoNLL-U两种格式提供,既方便Python生态下的数据处理,也兼容传统NLP工具链。
背景与挑战
背景概述
kniv-corpus-en是由Dragonscale AI于2026年构建的一个多领域英文自然语言处理语料库,专为支撑其认知记忆系统uniko中的多任务NLP模型kniv而设计。该语料库汇聚了来自商业、技术、对话、百科、新闻及叙事六大领域的17个开放数据源,涵盖SEC EDGAR企业文件、维基百科、任务导向对话语料等,总计逾65万条句子,并采用CC BY-SA 4.0许可协议,确保了商业友好性。其核心研究问题在于如何在一个统一框架内同时实现命名实体识别(18种类型)、词性标注(17个UPOS标签)、依存句法分析以及对话行为分类(9种类型),从而为多任务学习提供高质量、领域多样的训练基准,推动了从单一任务标注向复合语言理解系统演进的范式。
当前挑战
数据集面临的首要领域挑战在于多任务NLP模型中不同标注层的协同优化,例如依存句法分析与命名实体识别在序列标签空间中相互干扰,以及对话行为分类对上下文的敏感性——非对话文本中如“correction”类标签缺乏相邻轮次支持。构建过程中遭遇的挑战尤为显著:初始自动标注阶段使用spaCy transformer模型产生大量噪声,虽经GPT-5.4-nano验证纠正,但仅词性标注一项的单句拒绝率便高达40.9%,反映出自动化标注与人工标准之间的巨大鸿沟;后续的黄金过滤环节依赖Qwen3-8B进行逐句校验,最终仅45.2%的训练数据通过三重检查(命名实体识别9.3%、分类4.0%、词性标注40.9%的拒绝率),凸显了在规模与准确性之间取得平衡的艰巨性,以及大语言模型作为标注验证器时面临的高计算开销与不一致性问题。
常用场景
经典使用场景
kniv-corpus-en作为一部多领域英语自然语言处理语料库,其最经典的使用场景莫过于支撑多任务联合学习模型的训练与评估。该数据集整合了命名实体识别(18种类型)、词性标注、依存句法分析及对话行为分类四大注释层,研究者可基于统一的框架同时优化多项语言理解任务,从而捕捉不同任务间的语义关联与结构性依赖。尤其适合构建轻量级、高效率的工业级NLP流水线,其内置的黄金过滤子集与领域均衡样本,更为跨领域模型泛化能力的探索提供了理想的数据基础。
实际应用
在实际应用层面,该数据集赋能了kniv多任务模型对uniko认知记忆系统的驱动,展现于智能对话代理、信息抽取与知识管理工作流。例如,企业级知识管理平台可利用其NER与依存分析模块,自动从合同条款、技术文档中提取组织结构、金额及时间信息;对话系统中,通过对话行为分类精准识别用户的纠正、承诺或社交意图,从而实现动态的上下文更新与意图追踪。此外,其CoNLL-U格式与轻量级Parquet存储,便于快速集成至spaCy等生产级NLP管线,服务于金融文档解析、自动化客服、教育内容标注等场景。
衍生相关工作
kniv-corpus-en的衍生工作围绕多任务模型架构优化与数据质量提升两条主线展开。其背后的kniv-nlp-models开源项目提供了基于DeBERTa-v3-large的师生训练框架,研究者可借鉴其rel-pos依存编码方案,将句法分析转化为序列标注问题,降低模型复杂度。数据层面,采用GPT-5.4-nano与Qwen3-8B进行逐句验证的黄金过滤流程,启发了后续借助大型语言模型进行自动标注质检与弱监督学习的研究。此外,该语料库还催生了面向对话语境依赖性标签(如‘纠正’、‘赞同’)的细粒度建模工作,为认知系统与多轮交互场景的知识整合奠定了方法基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作