Wikentity: Entity Extraction API – Wikipedia & Wikidata
收藏Wikentity: Entity Extraction API – Wikipedia & Wikidata
数据集概述
- 名称: Wikentity: Entity Extraction API – Wikipedia & Wikidata
- 提供商: Weitix GmbH
- 类别: Text Analysis
- 定价模式: Freemium
- 订阅计划:
- BASIC: $0.00 / mo
- PRO: $20.00 / mo
- ULTRA: $60.00 / mo
- MEGA: $150.00 / mo
核心功能
- 命名实体识别 (NER): 从非结构化文本中提取实体。
- 实体链接: 将提取的实体链接到经过验证的 Wikidata ID 和 Wikipedia 页面。
- 返回结构化元数据: 为每个检测到的实体提供丰富的结构化信息。
主要特性
- 可靠的实体链接: ID 和 URL 经过验证,确保引用可靠。
- 抗幻觉输出: 设计上避免虚构的映射。
- 结构化 JSON 响应: 易于集成到应用程序、管道和数据平台。
- 生产就绪的 NLP API: 适用于高质量知识丰富化工作流。
常见用例
- 知识图谱丰富化
- 语义搜索和基于实体的过滤
- 内容标记和文档分类
- 新闻、媒体和研究分析
- RAG 预处理和 AI 数据基础
- 实体感知的推荐系统
端点详情
-
端点:
/spot -
方法:
POST -
内容类型:
application/json -
请求格式: json { "text": "Your input text here" }
-
请求参数:
text(字符串, 必需): 要分析的任意格式文本。
响应格式
- 响应结构: 返回一个 JSON 对象,包含
text(原始输入文本) 和entities(检测到的实体列表) 字段。 - 实体字段:
entityId(字符串): 实体的稳定标识符 (例如Q...ID)。languageCode(字符串): 本地化实体数据的语言代码 (例如en)。label(字符串): 实体的主要显示名称。description(字符串): 适用于 UI 预览的简短摘要。caption(字符串): 可选的简短标题文本 (可能为空)。wikipediaUrl(字符串或 null): 实体的规范 Wikipedia 页面 URL。imageUrl(字符串或 null): 用于视觉丰富化的代表性图片 URL。aliases(字符串数组): 用于匹配和搜索的替代名称/拼写。instanceOf(数组): 实体的语义类型/类别。每个项目包含id、label、description。subclassOf(数组): 分类父类 (可能为空)。dateOfBirth(字符串或 null): 出生日期 (如果可用)。dateOfDeath(字符串或 null): 死亡日期 (如果可用)。countriesOfCitizenship(数组): 国籍实体 (如果可用)。occupations(数组): 职业实体。每个项目通常包含id、label、description。officialWebsite(字符串或 null): 官方网站 URL (如果可用)。
示例响应 (节选)
json { "text": "Nowruz is New Years Day on the Iranian calendars...", "entities": [ { "entityId": "Q35900", "languageCode": "en", "description": "Persian mathematician and poet (1048-1131)", "caption": "", "wikipediaUrl": "https://en.wikipedia.org/wiki/Omar_Khayyam", "imageUrl": "https://upload.wikimedia.org/wikipedia/commons/d/da/Omar_Khayyam2.JPG", "instanceOf": [{"id": "Q5", "label": "human", "description": "any single member of Homo sapiens..."}], "subclassOf": [], "label": "Omar Khayyam", "aliases": ["Omar Khayyam", "Hakim Omar Khayyam"], "dateOfBirth": "+1048-05-18T00:00:00Z", "dateOfDeath": "+1131-12-04T00:00:00Z", "countriesOfCitizenship": [], "occupations": [ {"id": "Q170790", "label": "mathematician", "description": "person with an extensive knowledge of mathematics"}, {"id": "Q11063", "label": "astronomer", "description": "scientist who studies celestial bodies"}, {"id": "Q49757", "label": "poet", "description": "person who writes poetry"} ], "officialWebsite": null } ] }
使用注意事项
- 将可选字段视为可为空或为空 (
null/[]/"")。 - 不要假设所有实体都有图片/网站/日期字段。
- 使用
entityId作为主要的稳定键,而不是label。 aliases对于搜索/自动完成中的鲁棒匹配很有用。- 成功的调用应返回 HTTP
200状态码和有效的 JSON 对象。 - 客户端应能优雅地处理空的
entities数组。



