five

Named Entity Recognition

收藏
RapidAPI2026-05-15 更新2026-05-15 收录
下载链接:
https://rapidapi.com/dominicquaiser/api/named-entity-recognition5
下载链接
链接失效反馈
官方服务:
资源简介:
NER API: Extracts named entities — persons, organizations, locations, and miscellaneous entities — from unstructured text using transformer-based machine learning models. Supports multilingual input and returns categorized results with confidence scores.
创建时间:
2026-05-15
原始信息汇总

基于您提供的数据集详情页面内容,以下是对该数据集的总结:

数据集概述:Named Entity Recognition (NER) API

这是一个基于 Transformer 模型的命名实体识别(NER)API,能够从非结构化文本中提取人名、组织、地点和其他杂项实体,并附带置信度分数。

核心功能与特点

  • 功能:从非结构化文本中提取命名实体,包括人物、组织、地点和杂项实体。
  • 模型架构:采用基于 Transformer 的机器学习模型(如 XLM-RoBERTa、BERT)。
  • 多语言支持:支持多语言输入,并针对不同语言提供专门的端点,以提高识别准确率。

端点与模型

该 API 提供三个语言特定的端点,用户可根据输入文本的语言选择:

端点 (Endpoint) 使用的模型 最佳适用场景
POST /v2/entities/multilingual xlm-roberta-large 混语言文本、未知语言或多语言文档
POST /v2/entities/english bert-large-cased-finetuned-conll03-english 纯英文输入
POST /v2/entities/german xlm-roberta-large-finetuned-conll03-german 纯德文输入

经验法则:如果知道输入语言,请使用匹配的语言端点;如果不确定,则使用 multilingual 端点。

请求与响应

  • 请求:通过 HTTP POST 请求发送。需要在请求头中包含 X-RapidAPI-KeyX-RapidAPI-Host 进行身份验证。
  • 请求参数
    • text (字符串,必填):待分析的文本,长度限制为 3 到 2000 个字符。前后空白字符会被自动去除。
  • 响应格式:JSON 对象,包含以下主要字段:
    • persons: string[] - 提取的人物列表(去重,最多10个)。
    • organizations: string[] - 提取的组织列表(去重,最多10个)。
    • locations: string[] - 提取的地点列表(去重,最多10个)。
    • miscellaneous: string[] - 其他实体的列表(产品、事件等,去重,最多10个)。
    • raw_entities: object[] - 原始实体输出,包含实体文本、类型、置信度分数和字符偏移量。
    • confidence_scores: object - 每个类别下实体的置信度分数数组。
    • processing_time: float - 请求处理时间(秒)。
    • model_used: string - 执行抽取的 Hugging Face 模型标识符。

定价与限制

  • 定价模式:Freemium(免费增值)。
  • 免费套餐:每月 $0.00,但有每分钟 20 次请求的限制。
  • 付费套餐:提供 PRO ($8.00/月)、ULTRA ($32.00/月) 和 MEGA ($128.00/月) 多个层级。
  • 文本长度限制:所有端点的请求文本长度必须在 3 到 2000 个字符之间。

最佳实践

  • 匹配语言端点:优先使用与输入文本语言匹配的端点,以获得更高的准确性。
  • 保持文本清晰:API 在处理语法完整的连贯文本时表现最佳。
  • 利用原始实体:若需要精确的字符偏移量(如文本高亮),请使用 raw_entities 字段。
  • 过滤低置信度结果:可以使用 confidence_scores 设置阈值(例如 0.80)来过滤掉低质量的识别结果,提高精确度。
  • 处理长文本:对于超过 2000 字符的文档,建议在句子边界处进行分割,避免在句子中间截断。
  • 处理503错误:当遇到 503 状态码(服务不可用)时,等待几秒后重试通常可以恢复。

错误处理

API 错误响应统一采用 {"error": "...", "status_code": ...} 格式。常见状态码包括:

  • 400:请求体不是合法的 JSON。
  • 401:API 密钥缺失或无效。
  • 422:文本长度不符合要求(少于3字符或超过2000字符)或仅包含空白字符。
  • 500:内部服务器错误。
  • 503:服务暂时不可用(如模型冷启动),稍后重试。

来源信息

  • 创建者:Dominic M. Quaiser
  • 类别:Text Analysis
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作