five

Wikentity: Entity Extraction API – Wikipedia & Wikidata

收藏
RapidAPI2026-04-07 更新2026-03-28 收录
下载链接:
https://rapidapi.com/weitix-gmbh-weitix-gmbh-default/api/wikentity-entity-extraction-api-wikipedia-wikidata
下载链接
链接失效反馈
官方服务:
资源简介:
Named Entity Recognition (NER) to extract entities (people, places, brands) and linking them to Wikidata IDs and Types, Wikipedia pages, and Wikipedia images.
创建时间:
2026-04-07
原始信息汇总

Wikentity: Entity Extraction API – Wikipedia & Wikidata

数据集概述

  • 名称: Wikentity: Entity Extraction API – Wikipedia & Wikidata
  • 提供商: Weitix GmbH
  • 类别: Text Analysis
  • 定价模式: Freemium
  • 订阅计划:
    • BASIC: $0.00 / mo
    • PRO: $20.00 / mo
    • ULTRA: $60.00 / mo
    • MEGA: $150.00 / mo

核心功能

  • 命名实体识别 (NER): 从非结构化文本中提取实体。
  • 实体链接: 将提取的实体链接到经过验证的 Wikidata IDWikipedia 页面
  • 返回结构化元数据: 为每个检测到的实体提供丰富的结构化信息。

主要特性

  • 可靠的实体链接: ID 和 URL 经过验证,确保引用可靠。
  • 抗幻觉输出: 设计上避免虚构的映射。
  • 结构化 JSON 响应: 易于集成到应用程序、管道和数据平台。
  • 生产就绪的 NLP API: 适用于高质量知识丰富化工作流。

常见用例

  • 知识图谱丰富化
  • 语义搜索和基于实体的过滤
  • 内容标记和文档分类
  • 新闻、媒体和研究分析
  • RAG 预处理和 AI 数据基础
  • 实体感知的推荐系统

端点详情

  • 端点: /spot

  • 方法: POST

  • 内容类型: application/json

  • 请求格式: json { "text": "Your input text here" }

  • 请求参数:

    • text (字符串, 必需): 要分析的任意格式文本。

响应格式

  • 响应结构: 返回一个 JSON 对象,包含 text (原始输入文本) 和 entities (检测到的实体列表) 字段。
  • 实体字段:
    • entityId (字符串): 实体的稳定标识符 (例如 Q... ID)。
    • languageCode (字符串): 本地化实体数据的语言代码 (例如 en)。
    • label (字符串): 实体的主要显示名称。
    • description (字符串): 适用于 UI 预览的简短摘要。
    • caption (字符串): 可选的简短标题文本 (可能为空)。
    • wikipediaUrl (字符串或 null): 实体的规范 Wikipedia 页面 URL。
    • imageUrl (字符串或 null): 用于视觉丰富化的代表性图片 URL。
    • aliases (字符串数组): 用于匹配和搜索的替代名称/拼写。
    • instanceOf (数组): 实体的语义类型/类别。每个项目包含 idlabeldescription
    • subclassOf (数组): 分类父类 (可能为空)。
    • dateOfBirth (字符串或 null): 出生日期 (如果可用)。
    • dateOfDeath (字符串或 null): 死亡日期 (如果可用)。
    • countriesOfCitizenship (数组): 国籍实体 (如果可用)。
    • occupations (数组): 职业实体。每个项目通常包含 idlabeldescription
    • officialWebsite (字符串或 null): 官方网站 URL (如果可用)。

示例响应 (节选)

json { "text": "Nowruz is New Years Day on the Iranian calendars...", "entities": [ { "entityId": "Q35900", "languageCode": "en", "description": "Persian mathematician and poet (1048-1131)", "caption": "", "wikipediaUrl": "https://en.wikipedia.org/wiki/Omar_Khayyam", "imageUrl": "https://upload.wikimedia.org/wikipedia/commons/d/da/Omar_Khayyam2.JPG", "instanceOf": [{"id": "Q5", "label": "human", "description": "any single member of Homo sapiens..."}], "subclassOf": [], "label": "Omar Khayyam", "aliases": ["Omar Khayyam", "Hakim Omar Khayyam"], "dateOfBirth": "+1048-05-18T00:00:00Z", "dateOfDeath": "+1131-12-04T00:00:00Z", "countriesOfCitizenship": [], "occupations": [ {"id": "Q170790", "label": "mathematician", "description": "person with an extensive knowledge of mathematics"}, {"id": "Q11063", "label": "astronomer", "description": "scientist who studies celestial bodies"}, {"id": "Q49757", "label": "poet", "description": "person who writes poetry"} ], "officialWebsite": null } ] }

使用注意事项

  • 将可选字段视为可为空或为空 (null / [] / "")。
  • 不要假设所有实体都有图片/网站/日期字段。
  • 使用 entityId 作为主要的稳定键,而不是 label
  • aliases 对于搜索/自动完成中的鲁棒匹配很有用。
  • 成功的调用应返回 HTTP 200 状态码和有效的 JSON 对象。
  • 客户端应能优雅地处理空的 entities 数组。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作