five

uv-scripts/gliner

收藏
Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/uv-scripts/gliner
下载链接
链接失效反馈
官方服务:
资源简介:
GLiNER UV Scripts是一个用于在Hugging Face数据集上进行零样本命名实体识别(NER)的工具。它利用GLiNER模型,允许用户在运行时自定义实体类型列表,无需进行模型微调。该工具通过`extract-entities.py`脚本从文本列中提取实体,并生成包含实体信息的新的`entities`列,实体信息包括起始位置、结束位置、文本内容、标签和置信度分数。README提供了详细的使用指南,包括快速开始示例、在HF Jobs上运行的命令、从本地文件或存储桶读取数据的说明、推荐的实体类型词汇表、可用的模型选项、与Label Studio的配对使用以及一些注意事项和限制。

GLiNER UV Scripts is a tool for zero-shot named-entity recognition (NER) over Hugging Face datasets. It utilizes the GLiNER model, allowing users to pass a custom list of entity types at runtime without the need for fine-tuning. The tool extracts entities from a text column using the `extract-entities.py` script and generates a new `entities` column containing entity information, including start and end positions, text content, label, and confidence score. The README provides detailed usage instructions, including quick-start examples, commands for running on HF Jobs, instructions for reading data from local files or mounted buckets, recommended entity-type vocabularies, available model options, pairing with Label Studio, and some caveats and limitations.
提供机构:
uv-scripts
搜集汇总
数据集介绍
main_image_url
构建方式
GLiNER UV Scripts数据集基于零样本命名实体识别(Zero-shot NER)技术构建,依托GLiNER模型实现。该数据集包含一个核心脚本extract-entities.py,能够对Hugging Face数据集或本地文件(如parquet、jsonl、json、csv格式)中的文本列进行实体抽取,并生成包含实体起止位置、文本内容、标签和置信度分数的新列。用户无需微调,仅需在运行时指定实体类型列表即可完成抽取任务。
特点
该数据集的最大特色在于其零样本识别能力,支持任意实体类型词汇,无需预定义标签集即可灵活适应新闻、机器学习、法律、生物医学等多个领域。通过uv工具实现内联依赖解析,无需复杂环境配置。同时,数据集支持CPU和GPU两种运行模式,用户可根据样本量选择本地CPU处理或Hugging Face Jobs提供的GPU任务以提升效率,并兼容本地文件与Storage Bucket数据源。
使用方法
使用方式极为简洁:用户通过uv run命令直接运行脚本,传入输入数据集、输出数据集名称、文本列名及实体类型列表等参数即可。例如,对模型卡片数据集运行命令,可提取Person、Organization等实体。对于大规模数据,推荐通过Hugging Face Jobs提交GPU任务并指定批大小。输出结果可直接导入Label Studio等标注平台进行人工校验,形成纠正后的数据集回流至Hub。
背景与挑战
背景概述
GLiNER 数据集诞生于零样本命名实体识别(Zero-shot NER)领域的蓬勃发展之际,由研究团队基于 GLiNER 模型(源自 urchade 等研究者的工作)构建,旨在解决传统 NER 系统需针对特定实体类型进行微调的局限。该数据集提供了一套在 Hugging Face 数据集上运行的 UV 脚本,允许用户无需额外训练即可在运行时指定任意实体类型进行提取,例如人物、组织、数据集等。其核心研究问题是如何实现开放词汇的实体识别,从而降低标注成本并提升跨领域泛化能力。自发布以来,GLiNER 项目在开源社区中获得了广泛关注,为 ML/AI 文本、法律文摘、生物医学等场景提供了灵活的实体识别的解决方案,显著推动了零样本学习在实际应用中的落地。
当前挑战
GLiNER 数据集所解决的领域挑战在于传统 NER 模型对预定义实体类型的依赖,导致其在面对新领域或新实体时需重新训练或微调,这限制了快速迭代与部署。构建过程中,主要挑战包括:GLiNER 预测结果被视为“引导标签”(bootstrap labels),其准确性和可靠性不足以直接作为最终标注,通常需要人工复核才能用于下游训练,这增加了全流程的成本;对于过长文本(超过默认 8000 字符),脚本会截断处理,长文档需分块与重组,这增加了技术实现的复杂性;实体类型的大小写敏感性与抽象语义(如高度抽象或多义词)可能导致识别质量下降,需用户反复迭代以优化词汇表,从而在便捷性与精度之间取得平衡。
常用场景
经典使用场景
GLiNER数据集脚本的核心价值在于赋予研究者零样本命名实体识别能力,无需针对特定领域进行微调即可动态抽取实体。其最经典的使用场景涵盖跨领域的实体类型即时定义,例如在新闻文本中提取人物、组织、地点,或在AI领域模型卡片中识别人员、数据集、框架等实体。通过简单传递实体类型列表至`extract-entities.py`脚本,即可从Hugging Face数据集或本地文件中高效执行实体抽取任务,极大简化了传统NER流程中繁琐的标注与训练步骤。
实际应用
在实际部署中,GLiNER数据集脚本被广泛应用于多级流水线任务,例如将海量非结构化文档中的实体初步提取后,导入Label Studio等标注平台供人工审核,从而生成高质量训练数据。此外,其在法律、生物医学等专业领域中也展现出巨大潜力,支持如法庭、法规、药物、基因等抽象实体类型的灵活配置,为文档分析、知识图谱构建与智能搜索系统的开发提供了可落地的基础工具。
衍生相关工作
围绕GLiNER数据集脚本衍生出的经典工作包括多重检查点模型的探索与优化,如高效快速的`gliner_small-v2.1`、高精度的`gliner_large-v2.1`,以及融合命名实体识别、文本分类与关系抽取的多任务模型`gliner-multitask-large-v0.5`。这些衍生模型进一步拓展了零样本信息抽取的能力边界,同时与Hugging Face Jobs的无缝集成催生了云端分布式实体抽取作业模式,为大规模语料处理提供了标准化的工程方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作