Named Entity Recognition

RapidAPI2026-05-15 更新2026-05-15 收录

下载链接：

https://rapidapi.com/dominicquaiser/api/named-entity-recognition5

下载链接

链接失效反馈

官方服务：

资源简介：

NER API: Extracts named entities — persons, organizations, locations, and miscellaneous entities — from unstructured text using transformer-based machine learning models. Supports multilingual input and returns categorized results with confidence scores.

创建时间：

2026-05-15

原始信息汇总

基于您提供的数据集详情页面内容，以下是对该数据集的总结：

数据集概述：Named Entity Recognition (NER) API

这是一个基于 Transformer 模型的命名实体识别（NER）API，能够从非结构化文本中提取人名、组织、地点和其他杂项实体，并附带置信度分数。

核心功能与特点

功能：从非结构化文本中提取命名实体，包括人物、组织、地点和杂项实体。
模型架构：采用基于 Transformer 的机器学习模型（如 XLM-RoBERTa、BERT）。
多语言支持：支持多语言输入，并针对不同语言提供专门的端点，以提高识别准确率。

端点与模型

该 API 提供三个语言特定的端点，用户可根据输入文本的语言选择：

端点 (Endpoint)	使用的模型	最佳适用场景
`POST /v2/entities/multilingual`	`xlm-roberta-large`	混语言文本、未知语言或多语言文档
`POST /v2/entities/english`	`bert-large-cased-finetuned-conll03-english`	纯英文输入
`POST /v2/entities/german`	`xlm-roberta-large-finetuned-conll03-german`	纯德文输入

经验法则：如果知道输入语言，请使用匹配的语言端点；如果不确定，则使用 multilingual 端点。

请求与响应

请求：通过 HTTP POST 请求发送。需要在请求头中包含 X-RapidAPI-Key 和 X-RapidAPI-Host 进行身份验证。
请求参数：
- text (字符串，必填)：待分析的文本，长度限制为 3 到 2000 个字符。前后空白字符会被自动去除。
响应格式：JSON 对象，包含以下主要字段：
- persons: string[] - 提取的人物列表（去重，最多10个）。
- organizations: string[] - 提取的组织列表（去重，最多10个）。
- locations: string[] - 提取的地点列表（去重，最多10个）。
- miscellaneous: string[] - 其他实体的列表（产品、事件等，去重，最多10个）。
- raw_entities: object[] - 原始实体输出，包含实体文本、类型、置信度分数和字符偏移量。
- confidence_scores: object - 每个类别下实体的置信度分数数组。
- processing_time: float - 请求处理时间（秒）。
- model_used: string - 执行抽取的 Hugging Face 模型标识符。

定价与限制

定价模式：Freemium（免费增值）。
免费套餐：每月 $0.00，但有每分钟 20 次请求的限制。
付费套餐：提供 PRO ($8.00/月)、ULTRA ($32.00/月) 和 MEGA ($128.00/月) 多个层级。
文本长度限制：所有端点的请求文本长度必须在 3 到 2000 个字符之间。

最佳实践

匹配语言端点：优先使用与输入文本语言匹配的端点，以获得更高的准确性。
保持文本清晰：API 在处理语法完整的连贯文本时表现最佳。
利用原始实体：若需要精确的字符偏移量（如文本高亮），请使用 raw_entities 字段。
过滤低置信度结果：可以使用 confidence_scores 设置阈值（例如 0.80）来过滤掉低质量的识别结果，提高精确度。
处理长文本：对于超过 2000 字符的文档，建议在句子边界处进行分割，避免在句子中间截断。
处理503错误：当遇到 503 状态码（服务不可用）时，等待几秒后重试通常可以恢复。

错误处理

API 错误响应统一采用 {"error": "...", "status_code": ...} 格式。常见状态码包括：

400：请求体不是合法的 JSON。
401：API 密钥缺失或无效。
422：文本长度不符合要求（少于3字符或超过2000字符）或仅包含空白字符。
500：内部服务器错误。
503：服务暂时不可用（如模型冷启动），稍后重试。

来源信息

创建者：Dominic M. Quaiser
类别：Text Analysis

5,000+

优质数据集

54 个

任务类型

进入经典数据集