uv-scripts/gliner

Name: uv-scripts/gliner
Creator: uv-scripts
Published: 2026-05-08 10:27:19
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/uv-scripts/gliner

下载链接

链接失效反馈

官方服务：

资源简介：

GLiNER UV Scripts是一个用于在Hugging Face数据集上进行零样本命名实体识别（NER）的工具。它利用GLiNER模型，允许用户在运行时自定义实体类型列表，无需进行模型微调。该工具通过`extract-entities.py`脚本从文本列中提取实体，并生成包含实体信息的新的`entities`列，实体信息包括起始位置、结束位置、文本内容、标签和置信度分数。README提供了详细的使用指南，包括快速开始示例、在HF Jobs上运行的命令、从本地文件或存储桶读取数据的说明、推荐的实体类型词汇表、可用的模型选项、与Label Studio的配对使用以及一些注意事项和限制。

GLiNER UV Scripts is a tool for zero-shot named-entity recognition (NER) over Hugging Face datasets. It utilizes the GLiNER model, allowing users to pass a custom list of entity types at runtime without the need for fine-tuning. The tool extracts entities from a text column using the `extract-entities.py` script and generates a new `entities` column containing entity information, including start and end positions, text content, label, and confidence score. The README provides detailed usage instructions, including quick-start examples, commands for running on HF Jobs, instructions for reading data from local files or mounted buckets, recommended entity-type vocabularies, available model options, pairing with Label Studio, and some caveats and limitations.

提供机构：

uv-scripts

搜集汇总

数据集介绍

构建方式

GLiNER UV Scripts数据集基于零样本命名实体识别（Zero-shot NER）技术构建，依托GLiNER模型实现。该数据集包含一个核心脚本extract-entities.py，能够对Hugging Face数据集或本地文件（如parquet、jsonl、json、csv格式）中的文本列进行实体抽取，并生成包含实体起止位置、文本内容、标签和置信度分数的新列。用户无需微调，仅需在运行时指定实体类型列表即可完成抽取任务。

特点

该数据集的最大特色在于其零样本识别能力，支持任意实体类型词汇，无需预定义标签集即可灵活适应新闻、机器学习、法律、生物医学等多个领域。通过uv工具实现内联依赖解析，无需复杂环境配置。同时，数据集支持CPU和GPU两种运行模式，用户可根据样本量选择本地CPU处理或Hugging Face Jobs提供的GPU任务以提升效率，并兼容本地文件与Storage Bucket数据源。

使用方法

使用方式极为简洁：用户通过uv run命令直接运行脚本，传入输入数据集、输出数据集名称、文本列名及实体类型列表等参数即可。例如，对模型卡片数据集运行命令，可提取Person、Organization等实体。对于大规模数据，推荐通过Hugging Face Jobs提交GPU任务并指定批大小。输出结果可直接导入Label Studio等标注平台进行人工校验，形成纠正后的数据集回流至Hub。

背景与挑战

背景概述

GLiNER 数据集诞生于零样本命名实体识别（Zero-shot NER）领域的蓬勃发展之际，由研究团队基于 GLiNER 模型（源自 urchade 等研究者的工作）构建，旨在解决传统 NER 系统需针对特定实体类型进行微调的局限。该数据集提供了一套在 Hugging Face 数据集上运行的 UV 脚本，允许用户无需额外训练即可在运行时指定任意实体类型进行提取，例如人物、组织、数据集等。其核心研究问题是如何实现开放词汇的实体识别，从而降低标注成本并提升跨领域泛化能力。自发布以来，GLiNER 项目在开源社区中获得了广泛关注，为 ML/AI 文本、法律文摘、生物医学等场景提供了灵活的实体识别的解决方案，显著推动了零样本学习在实际应用中的落地。

当前挑战

GLiNER 数据集所解决的领域挑战在于传统 NER 模型对预定义实体类型的依赖，导致其在面对新领域或新实体时需重新训练或微调，这限制了快速迭代与部署。构建过程中，主要挑战包括：GLiNER 预测结果被视为“引导标签”（bootstrap labels），其准确性和可靠性不足以直接作为最终标注，通常需要人工复核才能用于下游训练，这增加了全流程的成本；对于过长文本（超过默认 8000 字符），脚本会截断处理，长文档需分块与重组，这增加了技术实现的复杂性；实体类型的大小写敏感性与抽象语义（如高度抽象或多义词）可能导致识别质量下降，需用户反复迭代以优化词汇表，从而在便捷性与精度之间取得平衡。

常用场景

经典使用场景

GLiNER数据集脚本的核心价值在于赋予研究者零样本命名实体识别能力，无需针对特定领域进行微调即可动态抽取实体。其最经典的使用场景涵盖跨领域的实体类型即时定义，例如在新闻文本中提取人物、组织、地点，或在AI领域模型卡片中识别人员、数据集、框架等实体。通过简单传递实体类型列表至`extract-entities.py`脚本，即可从Hugging Face数据集或本地文件中高效执行实体抽取任务，极大简化了传统NER流程中繁琐的标注与训练步骤。

实际应用

在实际部署中，GLiNER数据集脚本被广泛应用于多级流水线任务，例如将海量非结构化文档中的实体初步提取后，导入Label Studio等标注平台供人工审核，从而生成高质量训练数据。此外，其在法律、生物医学等专业领域中也展现出巨大潜力，支持如法庭、法规、药物、基因等抽象实体类型的灵活配置，为文档分析、知识图谱构建与智能搜索系统的开发提供了可落地的基础工具。

衍生相关工作

围绕GLiNER数据集脚本衍生出的经典工作包括多重检查点模型的探索与优化，如高效快速的`gliner_small-v2.1`、高精度的`gliner_large-v2.1`，以及融合命名实体识别、文本分类与关系抽取的多任务模型`gliner-multitask-large-v0.5`。这些衍生模型进一步拓展了零样本信息抽取的能力边界，同时与Hugging Face Jobs的无缝集成催生了云端分布式实体抽取作业模式，为大规模语料处理提供了标准化的工程方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集